. m+ n( O" [" I- Y6 i$ a( ^其中 p(x,y) 当前是 X 和 Y 的联合概率密度函数,而p(x)和p(y)分别是 X 和 Y 的边缘概率密度函数。: y( s8 b& U0 d& O
3 T! d) |' {: C7 B
" w5 |& d# Q+ p K; W' \# p9 z; J
互信息量I(xi;yj)在联合概率空间P(XY)中的统计平均值。 平均互信息I(X;Y)克服了互信息量I(xi;yj)的随机性,成为一个确定的量。如果对数以 2 为基底,互信息的单位是bit。 0 b, K" P+ u' _3 j7 [! L( b e # i. _6 D; a9 j/ I0 d7 J0 F) h " T4 L; e0 V- t! M5 `2 l直观上,互信息度量 X 和 Y 共享的信息:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。例如,如果 X 和 Y 相互独立,则知道 X 不对 Y 提供任何信息,反之亦然,所以它们的互信息为零。在另一个极端,如果 X 是 Y 的一个确定性函数,且 Y 也是 X 的一个确定性函数,那么传递的所有信息被 X 和 Y 共享:知道 X 决定 Y 的值,反之亦然。因此,在此情形互信息与 Y(或 X)单独包含的不确定度相同,称作 Y(或 X)的熵。而且,这个互信息与 X 的熵和 Y 的熵相同。(这种情形的一个非常特殊的情况是当 X 和 Y 为相同随机变量时。) ! w& ~, y( l; M5 m) Z& L) ^ 4 E' P' x; e6 b. ^4 ^3 a, f# U6 A- F3 E3 F6 n
互信息是 X 和 Y 联合分布相对于假定 X 和 Y 独立情况下的联合分布之间的内在依赖性。于是互信息以下面方式度量依赖性:I(X; Y) = 0 当且仅当 X 和 Y 为独立随机变量。从一个方向很容易看出:当 X 和 Y 独立时,p(x,y) = p(x) p(y),因此: . ?, V# Z4 K8 H$ T1 |1 F9 l 9 S. c1 i/ }! n9 Q# o) N( K. l+ W7 V) z/ [- H* l& P4 s