最近在看《统计自然语言处理》,觉得第二章预备知识里的关于信息论的一些基本概念总结得很不错。虽然对于熵这个词,我接触过很多次,在机器学习里的很多地方也都有涉及到,比如说最大熵模型,决策树训练时的互信息等等。但是有的时候我还是会经常搞混淆,这里简单介绍一下常用的概念。
一. 熵
对于离散变量 X X X , 假设其取值空间为 R R R ,其概率分布为 p ( x ) = P ( X = x ) , x ∈ R p(x) = P(X = x), x \in R p ( x ) = P ( X = x ) , x ∈ R ,那么定义随机变量 X X X 的熵为: H ( X ) = − ∑ x ∈ R p ( x ) l o g x ( p ( x ) ) H(X) = - \sum_{x \in R} p(x)log_x (p(x)) H ( X ) = − ∑ x ∈ R p ( x ) l o g x ( p ( x )) 约定 0 l o g ( 0 ) = 0 0log(0) = 0 0 l o g ( 0 ) = 0 。由于这里使用了2为底,所以该公式定义的熵的单位为二进制单位(比特),实际情况也有使用其它底数的版本的熵。
熵又被成为自信息(self-information),可以将其描述为一个随机变量不稳定的程度。通过简单的数学计算可以证明当随机变量 X X X 在其取值空间上对所有值等概率的情况下,熵达到最大值,也就是说随机变量随机性越强,它的熵越大。如果在某一个值上取值概率为1,也就是说这个随机变量其实并不随机,是一个定值,这个时候的熵达到最小值0,它毫无随机性。
熵还可以表示信源 X X X 每发出一个符号所提供的平均信息量。熵越大,越难猜测变量正确的值,因此给予的信息就越多。
二. 联合熵和条件熵
有了单变量的情况,很自然就想到多变量下联合概率和条件概率的情况。
对于一堆随机变量 X , Y X, Y X , Y ,其联合概率为 p ( x , y ) p(x, y) p ( x , y ) ,则其联合熵为: H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g 2 ( p ( x , y ) ) H(X, Y) = - \sum_{x\in X} \sum_{y \in Y} p(x, y) log_2(p(x, y)) H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g 2 ( p ( x , y )) 联合熵实际熵就是描述一对随机变量平均所需要的信息量。
条件熵就是给定条件概率$p(Y|X)$的情况下: H ( Y ∣ X ) = ∑ x ∈ X p ( x ) H ( Y ∣ X = x ) = ∑ x ∈ X ∑ y ∈ Y p ( x ) p ( y ∣ x ) l o g ( p ( y ∣ x ) = ∑ x ∈ X ∑ y ∈ Y p ( x ) p ( x , y ) p ( x ) l o g ( p ( x , y ) p ( x ) ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g ( p ( x , y ) − p ( x , y ) l o g p ( x ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g ( p ( x , y ) − ∑ x ∈ X p ( x ) l o g ( p ( x ) ) = H ( X , Y ) − H ( X ) \begin{aligned} H(Y|X) &= \sum_{x\in X} p(x)H(Y|X = x) = \sum_{x \in X}\sum_{y\in Y}p(x)p(y|x)log(p(y|x) \\\\ &= \sum_{x\in X}\sum_{y \in Y}p(x)\frac{p(x,y)}{p(x)}log(\frac{p(x,y)}{p(x)}) \\\\ &= \sum_{x\in X}\sum_{y \in Y}p(x,y)log(p(x,y) - p(x,y)logp(x) \\\\ &= \sum_{x\in X}\sum_{y \in Y}p(x, y)log(p(x,y) - \sum_{x\in X}p(x)log(p(x)) \\\\ &= H(X, Y) - H(X)\end{aligned} H ( Y ∣ X ) = x ∈ X ∑ p ( x ) H ( Y ∣ X = x ) = x ∈ X ∑ y ∈ Y ∑ p ( x ) p ( y ∣ x ) l o g ( p ( y ∣ x ) = x ∈ X ∑ y ∈ Y ∑ p ( x ) p ( x ) p ( x , y ) l o g ( p ( x ) p ( x , y ) ) = x ∈ X ∑ y ∈ Y ∑ p ( x , y ) l o g ( p ( x , y ) − p ( x , y ) l o g p ( x ) = x ∈ X ∑ y ∈ Y ∑ p ( x , y ) l o g ( p ( x , y ) − x ∈ X ∑ p ( x ) l o g ( p ( x )) = H ( X , Y ) − H ( X )
这个式子也被称为熵的连锁规则,推广到一般情况有: H ( X 1 , X 2 , . . . , X n ) = H ( X 1 ) + H ( X 2 ∣ X 1 ) + H ( X 3 ∣ X 2 , X 2 ) + . . . + H ( X n ∣ X n − 1 , X n − 2 , . . . , X 1 ) H(X_1, X_2, ..., X_n) = H(X_1) + H(X_2|X_1) + H(X_3|X_2, X_2) + ... + H(X_n|X_{n-1}, X_{n-2},...,X_1) H ( X 1 , X 2 , ... , X n ) = H ( X 1 ) + H ( X 2 ∣ X 1 ) + H ( X 3 ∣ X 2 , X 2 ) + ... + H ( X n ∣ X n − 1 , X n − 2 , ... , X 1 ) 条件熵可以看作是在受变量 X X X 影响的情况下,变量 Y Y Y 的不稳定程度。
对于来自于同一个分布 X X X 的一个随机变量序列 ( X 1 , X 2 , . . . , X n ) (X_1, X_2, ..., X_n) ( X 1 , X 2 , ... , X n ) ,用 X 1 n X_{1n} X 1 n 表示。当我们求这个序列的熵的时候,我们可以将其表示为n个同样的随机分布X的联合熵,为 − ∑ x 1 n p ( x 1 n ) l o g ( p ( x 1 n ) ) -\sum_{x_{1n}} p(x_{1n})log(p(x_{1n})) − ∑ x 1 n p ( x 1 n ) l o g ( p ( x 1 n )) 。
于是,对于一条长度为n的信息,每一个字符或字的熵为: H r a t e = 1 n H ( X 1 n ) = − 1 n ∑ x 1 n p ( x 1 n ) l o g ( p ( x 1 n ) ) H_{rate} = \frac{1}{n}H(X_{1n}) = -\frac{1}{n}\sum_{x_{1n}} p(x_{1n})log(p(x_{1n})) H r a t e = n 1 H ( X 1 n ) = − n 1 ∑ x 1 n p ( x 1 n ) l o g ( p ( x 1 n )) 这个数值被称为熵率。
对于语言模型来说,如果假定一种语言是由一系列符号组成的随机过程 L = ( X i ) L=(X_i) L = ( X i ) ,例如,某报纸的一批预料,那么,可以定义这种语言L的熵率作为其随机过程的熵率: H r a t e = l i m n → ∞ 1 n H ( X 1 n ) H_{rate} = lim_{n \rightarrow \infty}\frac{1}{n}H(X_{1n}) H r a t e = l i m n → ∞ n 1 H ( X 1 n )
三. 互信息
根据上面的链式法则得到: H ( X , Y ) = H ( X ) + H ( Y ∣ X ) = H ( Y ) + H ( X ∣ Y ) H(X, Y) = H(X) + H(Y|X) = H(Y) + H(X|Y) H ( X , Y ) = H ( X ) + H ( Y ∣ X ) = H ( Y ) + H ( X ∣ Y ) 于是有: H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) H(X) - H(X|Y) = H(Y) - H(Y|X) H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) 这个差值被称为变量X和Y之间的互信息,计作 I ( X ; Y ) I(X; Y) I ( X ; Y ) 。它反映了在知道了Y的值以后,X的不确定性的减少量,同时也是在知道了X的值以后,Y的不确定性的减少量。可以理解为Y的值透露了多少关于X的信息量。
将其展开: I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) = H ( X ) + H ( Y ) − H ( X , Y ) = − ∑ x p ( x ) l o g ( p ( x ) ) − ∑ y p ( y ) l o g ( p ( y ) ) + ∑ x , y p ( x , y ) l o g ( p ( x , y ) ) = ∑ x , y p ( x , y ) l o g p ( x , y ) p ( x ) p ( y ) \begin{aligned}I(X;Y) &= H(X)-H(X|Y) = H(X) + H(Y) - H(X, Y) \\\\ &= -\sum_x p(x)log(p(x)) - \sum_y p(y)log(p(y)) + \sum_{x, y} p(x, y)log(p(x, y)) \\\\ &= \sum_{x, y}p(x,y)log\frac{p(x, y)}{p(x)p(y)}\end{aligned} I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) = H ( X ) + H ( Y ) − H ( X , Y ) = − x ∑ p ( x ) l o g ( p ( x )) − y ∑ p ( y ) l o g ( p ( y )) + x , y ∑ p ( x , y ) l o g ( p ( x , y )) = x , y ∑ p ( x , y ) l o g p ( x ) p ( y ) p ( x , y ) 从这个式子可以看出 I ( X ; X ) = H ( X ) − H ( X ∣ X ) = H ( X ) I(X;X) = H(X) - H(X|X) = H(X) I ( X ; X ) = H ( X ) − H ( X ∣ X ) = H ( X ) ,这也就是把熵称为自信息的原因。另一方面可以看出,如果 I ( X ; Y ) > > 0 I(X;Y)>>0 I ( X ; Y ) >> 0 ,则表明X和Y是高度相关的。如果 I ( X ; Y ) = 0 I(X;Y) = 0 I ( X ; Y ) = 0 ,即 p ( x , y ) = p ( x ) p ( y ) p(x,y)=p(x)p(y) p ( x , y ) = p ( x ) p ( y ) 则说明两者完全独立。如果 I ( X ; Y ) < < 0 I(X;Y)<<0 I ( X ; Y ) << 0 ,则表明Y的出现不但未使X的不确定性降低,反而加大了其不确定性,这通常是不利的。
同样可以推导条件互信息。
条件互信息 I ( X ; Y ∣ Z ) = I ( ( X ; Y ∣ Z ) ) = H ( X ∣ Z ) − H ( X ∣ Y , Z ) = H ( X ) − I ( X ; Z ) − ( H ( X ) − I ( X ; Y , Z ) ) = I ( X ; Y , Z ) − I ( X ; Z ) \begin{aligned}I(X;Y|Z) &= I((X;Y | Z)) = H(X|Z) - H(X|Y,Z) \\\\ &= H(X) - I(X;Z) - (H(X) - I(X;Y,Z)) \\\\ &= I(X;Y,Z) - I(X;Z)\end{aligned} I ( X ; Y ∣ Z ) = I (( X ; Y ∣ Z )) = H ( X ∣ Z ) − H ( X ∣ Y , Z ) = H ( X ) − I ( X ; Z ) − ( H ( X ) − I ( X ; Y , Z )) = I ( X ; Y , Z ) − I ( X ; Z )
四. 相对熵
相对熵又被称为KL距离,是衡量相同事件空间里两个概率分布相对差距的测度。两个概率分布p(x)和q(x)的相对熵定义为: D ( p ∣ ∣ q ) = ∑ x ∈ X p ( x ) l o g p ( x ) q ( x ) = E p ( l o g p ( x ) q ( x ) ) D(p||q) = \sum_{x\in X}p(x)log\frac{p(x)}{q(x)} = E_p(log\frac{p(x)}{q(x)}) D ( p ∣∣ q ) = ∑ x ∈ X p ( x ) l o g q ( x ) p ( x ) = E p ( l o g q ( x ) p ( x ) ) 显然,当两个随机分布完全相同,即p=q时,相对熵为0,当其差别增加时,其相对熵的期望值也增大。
之前证明了I ( X ; Y ) = ∑ x , y p ( x , y ) l o g p ( x , y ) p ( x ) p ( y ) = D ( p ( x , y ) ∣ ∣ p ( x ) p ( y ) I(X;Y) = \sum_{x, y}p(x,y)log\frac{p(x, y)}{p(x)p(y)} = D(p(x,y)||p(x)p(y) I ( X ; Y ) = ∑ x , y p ( x , y ) l o g p ( x ) p ( y ) p ( x , y ) = D ( p ( x , y ) ∣∣ p ( x ) p ( y )
于是知道互信息就是衡量一个联合分布与独立性差距多大的测度。
五. 交叉熵
根据前面的定义,知道熵就是一个不确定性的测度。对于某件事情,我们知道的越多,熵就越小,因而我们对于试验的结果就越不感到意外。交叉熵的概念就是用来衡量估计模型与真是概率分布之间差异情况的。
如果一个随机变量 X ∼ p ( x ) X\sim p(x) X ∼ p ( x ) ,q是我们计算得到的模型, q ( x ) q(x) q ( x ) 是模型q对于真实分布 p ( x ) p(x) p ( x ) 的近似表示。那么随机变量X和模型q之间的交叉熵定义为: H ( X , q ) = H ( X ) + D ( p ∣ ∣ q ) = − ∑ x ∈ X p ( x ) l o g ( p ( x ) ) + ∑ x ∈ X p ( x ) l o g p ( x ) q ( x ) = − ∑ x ∈ X p ( x ) l o g ( q ( x ) ) = E p ( l o g 1 q ( x ) ) \begin{aligned}H(X, q) = H(X) + D(p || q) &= -\sum_{x\in X} p(x)log(p(x)) + \sum_{x\in X} p(x)log\frac{p(x)}{q(x)} \\\\ &= -\sum_{x\in X}p(x)log(q(x)) = E_p(log\frac{1}{q(x)})\end{aligned} H ( X , q ) = H ( X ) + D ( p ∣∣ q ) = − x ∈ X ∑ p ( x ) l o g ( p ( x )) + x ∈ X ∑ p ( x ) l o g q ( x ) p ( x ) = − x ∈ X ∑ p ( x ) l o g ( q ( x )) = E p ( l o g q ( x ) 1 ) 这里联想到之前在介绍神经元交叉熵损失的时候给出了这样一个定义 y l n ( a ) + ( 1 − y ) l n ( a ) yln(a) + (1-y)ln(a) y l n ( a ) + ( 1 − y ) l n ( a ) ,可以知道这里的y并不是对应说真实的标签,而是对于该神经元的两种状态0或1,当其真实值为1时,即 p ( x = 1 ) = 1 p(x = 1) = 1 p ( x = 1 ) = 1 ,损失为 l o g ( q ( x = 1 ) log(q(x=1) l o g ( q ( x = 1 ) ,当其真实值为0时,即 p ( x = 0 ) = 1 p(x=0) = 1 p ( x = 0 ) = 1 ,损失就是 l o g ( 1 − q ( x = 1 ) = l o g ( q ( x = 0 ) ) log(1-q(x=1) = log(q(x=0)) l o g ( 1 − q ( x = 1 ) = l o g ( q ( x = 0 )) ,和我们这里交叉熵的定义完全符合。
注意到这里交叉熵写作 H ( X , q ) H(X, q) H ( X , q ) ,这似乎就是联合熵的形式,这样表示不会引起误会吗?事实上,交叉熵可以看作是一种特殊场景下的联合熵,它是衡量一个变量X,和我们对其的近似表示q(x)的联合熵。如何这个近似非常完美,即q(x)就是X的真实分布p(x),那么 D ( p ∣ ∣ q ) = 0 , H ( X , q ) = H ( X , X ) D(p||q) = 0, H(X, q) = H(X, X) D ( p ∣∣ q ) = 0 , H ( X , q ) = H ( X , X ) ,就是自身的联合熵了。
接着我们定义一个语言 L = ( X ) ∼ p ( x ) L = (X) \sim p(x) L = ( X ) ∼ p ( x ) 与我们构建的语言模型q的交叉熵为: H ( L , q ) = − l i m n → ∞ 1 n ∑ x 1 n p ( x 1 n ) l o g ( q ( x 1 n ) ) H(L, q) = -lim_{n\rightarrow \infty}\frac{1}{n} \sum_{x^n_1} p(x^n_1)log(q(x^n_1)) H ( L , q ) = − l i m n → ∞ n 1 ∑ x 1 n p ( x 1 n ) l o g ( q ( x 1 n )) 其中, x n 1 = x 1 , x 2 , . . , x n x^n1 = x_1, x_2, .. ,x_n x n 1 = x 1 , x 2 , .. , x n 为语言L的词序列样本,这里的词包括样本中出现的任意词汇、数字、标点等。我们假设这种语言是“理想”的,于是有n趋于无穷大时,有全部“词汇”的概率和为1,根据信息论的定理,假定语言L是稳态遍历的随机过程,就可以得到:
H ( L , q ) = − l i m n → ∞ 1 n l o g ( q ( x 1 n ) ) H(L, q) = -lim_{n\rightarrow \infty}\frac{1}{n} log(q(x^n_1)) H ( L , q ) = − l i m n → ∞ n 1 l o g ( q ( x 1 n ))
就是说可以用样本的熵表示整个语言的熵。
在实际情况下,当我们选择的样本量n足够大的时候,可以将上式子近似表示为 − 1 N l o g ( q ( x 1 N ) -\frac{1}{N}log(q(x^N_1) − N 1 l o g ( q ( x 1 N ) ,交叉熵越小,表示我们的模型越接近真实的语言模型,效果越好。
六. 困惑度
在设计语言模型的时候,我们通常并不使用交叉熵而是使用困惑度(perplexity)来表示。给定语言L的样本 l 1 n = l 1 . . . l n l^n_1 = l_1...l_n l 1 n = l 1 ... l n ,L的困惑度PP_q为: p p q = 2 H ( L , q ) ≈ 2 − 1 n l o g ( q ( l 1 n ) = [ q ( l 1 n ) ] − 1 n pp_q = 2^{H(L,q)} \approx 2^{-\frac{1}{n}log(q(l^n_1)} = [q(l^n_1)]^{-\frac{1}{n}} p p q = 2 H ( L , q ) ≈ 2 − n 1 l o g ( q ( l 1 n ) = [ q ( l 1 n ) ] − n 1 于是语言模型设计的任务就是寻找困惑度最小的模型,使其最接近真实语言的情况。
从perplexity的计算式可以看出来,它是对于样本句子出现的概率,在句子长度上Normalize一下的结果。它越小,说明出现概率越大,所得模型就越好。
七. 模拟信道模型
在学通信原理的时候学习过信道的概念,一个信号经过一个信道,会由于压缩编码,噪声引入,然后在解码的时候就会多少有一点失真。
在自然语言处理中,很多问题也都可以归结为这样的模型。给定输出O(可能含有误传信息)的情况下,如何从所有可能的输入I中选出最可能的那个: I ^ = a r g m a x I p ( I ∣ O ) = a r g m a x I P ( I ) p ( O ∣ I ) p ( O ) = a r g m a x I p ( I ) p ( O ∣ I ) \hat{I} = argmax_I p(I|O) = argmax_I \frac{P(I)p(O|I)}{p(O)} = argmax_I p(I)p(O|I) I ^ = a r g ma x I p ( I ∣ O ) = a r g ma x I p ( O ) P ( I ) p ( O ∣ I ) = a r g ma x I p ( I ) p ( O ∣ I ) 其中 p ( I ) p(I) p ( I ) 成为语言模型,是指在输入语言中“词”序列的概率分布;另一个 p ( O ∣ I ) p(O|I) p ( O ∣ I ) 成为信道概率。
对应到实际的NLP问题,比如说机器翻译在进行汉译英的时候,汉语句子看作是信道输出O,求出最可能的信道输入英语句子I。
噪声信道模型在NLP中有非常多的用途,除了机器翻译以外,还用于词性标注、语音识别、文字识别等很多问题的研究。
参考文献
[1] 统计自然语言处理 - 宗成庆