信息的度量
信息的度量¶
概率论基础¶
概率变量的空间 \(\{X, \mathcal{X}, q(x)\}\) :
- \(\mathcal{X}\):\(X\)的取值空间,\(\mathcal{X} = \left\{x_k;k = 1,2,\cdots ,K\right\}\)
- \(q(x)\):事件 \(\{\mathcal{X} = x\}\) 发生的概率,\(q(x) \le 0\),\(\sum_{x\in\mathcal{X}}q(x) = 1\)
联合变量对 \((X,Y)\)
条件概率
事件的自信息¶
自信息定义
对于概率空间 \(\{X,\mathcal{X},q(x)\}\) ,事件 \(\{X = x_k\}\) 的自信息定义为:
单位:当 \(a = 2\) 时,单位为比特(bite);当 \(a =e\) 时,单位为奈特(nat).
本质:
- 事件发生后对外界观察者所提供的信息量。
- 事件发生前外界为确证该事件的发生所需要的信息量,也是外界为确证该事件所需要付出的代价。
- 事件的自信息并不代表事件的不确定性。
性质:
- \(q(x_k)\)越大,\(I(x_k)\)越小。
- \(q(x_k) = 1, I(x_k) = 0\)
条件自信息
二维随机变量\(\{(X,Y), \mathcal{X} \times \mathcal{Y}, p(x,y)\}\),事件\(\{Y = y_j\}\)发生的条件下事件\(\{X = x_k\}\)的条件自信息定义为:
本质:
- 事件\(y_j\)发生后,如果\(x_k\)再发生所需要的新的信息量。
联合自信息
二维随机变量\(\{(X,Y), \mathcal{X} \times \mathcal{Y}, p(x,y)\}\),事件\(\{Y = y_j\}\)和事件\(\{X = x_k\}\)的联合自信息定义为:
表示两个事件同时发生所需要的信息量。
事件的互信息¶
互信息定义
二维随机变量 \(\{(X,Y), \mathcal{X}\times \mathcal{Y},p(x,y)\}\) ,事件 \(\{Y = y_j\}\) 与事件 \(\{X = x_K\}\) 之间的互信息定义为:
本质:事件 \(Y = y_j\) 发生后对事件 \(X = x_k\) 不确定性的降低。
性质:
- 对称性:\(I(x_k; y_j) = I(y_j; x_k)\)
- 非负性 利用 \(\ln x \le x-1\)
条件互信息
在给定 \(Z = z\) 的条件下,事件 \(X = x\) 与 \(Y = y\) 之间的条件互信息为:
表示事件 \(Z = z\) 发生时,事件 \(X = x\) 与事件 \(Y = y\) 之间提供的信息。
联合互信息
联合事件 \(\{Y = y, Z = z\}\) 与事件 \(\{X = x\}\) 之间的互信息为:
表示事件 \(\{Y = y, Z = z\}\) 联合提供给事件 \(\{X = x\}\) 的信息量。
事件联合互信息的链式法则:
即事件 \(\{Y = y,Z = z\}\) 联合提供给 \(\{X=x\}\) 事件的信息量,等于事件 \(\{Y= y\}\) 提供给事件 \(\{X = x\}\) 的信息量加上事件 \(\{Y=y\}\) 已知的条件下,事件 \(\{Z=z\}\) 提供给 \(\{X = x\}\) 的新信息量。
随机变量的熵¶
随机变量的熵定义
定义为各个事件的平均自信息。
区别: 熵与自信息的区别在于熵针对的是随机变量,自信息针对具体的事件。
随机变量的联合熵
定义 :表示两个随机变量不确定度的度量
链式法则 :
性质 : \(X\) 和 \(Y\) 统计独立时,
随机变量的条件熵
定义:在给定 \(Y=y\) 的条件下,\(X\) 的条件熵为:
性质 :\(X\) 与 \(Y\) 统计独立时,\(H(X|Y) = H(X)\)