跳转至

信息的度量

信息的度量

概率论基础

概率变量的空间 \(\{X, \mathcal{X}, q(x)\}\) :

  • \(\mathcal{X}\):\(X\)的取值空间,\(\mathcal{X} = \left\{x_k;k = 1,2,\cdots ,K\right\}\)
  • \(q(x)\):事件 \(\{\mathcal{X} = x\}\) 发生的概率,\(q(x) \le 0\)\(\sum_{x\in\mathcal{X}}q(x) = 1\)

联合变量对 \((X,Y)\)

条件概率

事件的自信息

自信息定义

对于概率空间 \(\{X,\mathcal{X},q(x)\}\) ,事件 \(\{X = x_k\}\) 的自信息定义为:

\[I(x_k)= -\log_aq(x)\]

单位:当 \(a = 2\) 时,单位为比特(bite);当 \(a =e\) 时,单位为奈特(nat).
本质
- 事件发生后对外界观察者所提供的信息量。
- 事件发生前外界为确证该事件的发生所需要的信息量,也是外界为确证该事件所需要付出的代价。
- 事件的自信息并不代表事件的不确定性。

性质
- \(q(x_k)\)越大,\(I(x_k)\)越小。
- \(q(x_k) = 1, I(x_k) = 0\)

条件自信息

二维随机变量\(\{(X,Y), \mathcal{X} \times \mathcal{Y}, p(x,y)\}\),事件\(\{Y = y_j\}\)发生的条件下事件\(\{X = x_k\}\)的条件自信息定义为:

\[I(x_k | y_j) = - \log p(x_k|y_j)\]

本质
- 事件\(y_j\)发生后,如果\(x_k\)再发生所需要的新的信息量。

联合自信息

二维随机变量\(\{(X,Y), \mathcal{X} \times \mathcal{Y}, p(x,y)\}\),事件\(\{Y = y_j\}\)和事件\(\{X = x_k\}\)的联合自信息定义为:

\[I(x_k; y_j) = -\log p(x_k;y_j)\]

表示两个事件同时发生所需要的信息量。

事件的互信息

互信息定义

二维随机变量 \(\{(X,Y), \mathcal{X}\times \mathcal{Y},p(x,y)\}\) ,事件 \(\{Y = y_j\}\) 与事件 \(\{X = x_K\}\) 之间的互信息定义为:

\[I(x_k;y_j) = I(x_k) - I(x_k|y_j) = -\log q(x_k) - \{-\log p(x_k|y_j)\}\]

本质:事件 \(Y = y_j\) 发生后对事件 \(X = x_k\) 不确定性的降低。

性质: - 对称性:\(I(x_k; y_j) = I(y_j; x_k)\)
- 非负性 利用 \(\ln x \le x-1\)

条件互信息

在给定 \(Z = z\) 的条件下,事件 \(X = x\)\(Y = y\) 之间的条件互信息为:

\[I(x;y|z) = -\log \frac{p(x|y,z)}{p(x|z)} = -\log \frac{p(x,y|z)}{p(x|z) \cdot p(y|z)}\]

表示事件 \(Z = z\) 发生时,事件 \(X = x\) 与事件 \(Y = y\) 之间提供的信息。

联合互信息

联合事件 \(\{Y = y, Z = z\}\) 与事件 \(\{X = x\}\) 之间的互信息为:

\[I(x;y,z) = \log \frac{p(x|y,z)}{p(x)} = \log \frac{p(x,y,z)}{p(x)p(y,z)}\]

表示事件 \(\{Y = y, Z = z\}\) 联合提供给事件 \(\{X = x\}\) 的信息量。

事件联合互信息的链式法则

\[I(x;y,z) = I(x;y) + I(x;z|y)\]

即事件 \(\{Y = y,Z = z\}\) 联合提供给 \(\{X=x\}\) 事件的信息量,等于事件 \(\{Y= y\}\) 提供给事件 \(\{X = x\}\) 的信息量加上事件 \(\{Y=y\}\) 已知的条件下,事件 \(\{Z=z\}\) 提供给 \(\{X = x\}\) 的新信息量。

随机变量的熵

随机变量的熵定义

定义为各个事件的平均自信息。

\[H(X) = E[I(X)] = \sum_{x\in \mathcal{X}}q(x)I(x)= -\sum_{x \in \mathcal{X}}q(x)\log q(x)\]

区别: 熵与自信息的区别在于熵针对的是随机变量,自信息针对具体的事件。

随机变量的联合熵

定义 :表示两个随机变量不确定度的度量

\[H(X,Y) = E[I(X,Y)] = -\sum_{x \in \mathcal{X},y\in \mathcal{Y}}p(x,y)\log p(x,y)\]

链式法则

\[H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)\]

性质 : \(X\)\(Y\) 统计独立时,

\[H(X,Y) = H(X) + H(Y)\]
\[H(X,Y,Z) = H(X) + H(Y,Z|X) = H(X) + H(Y|X)+ H(Z|X,Y)\]

随机变量的条件熵

定义:在给定 \(Y=y\) 的条件下,\(X\) 的条件熵为:

\[H(X|y) = E[I(X|y)] = -\sum_{x \in \mathcal{X}} p(x|y)\log p(x|y)\]

性质\(X\)\(Y\) 统计独立时,\(H(X|Y) = H(X)\)