我是靠谱客的博主 勤奋花卷,这篇文章主要介绍关于信息熵最大值的讨论最大离散熵定理均值受限的最大熵值参考书目,现在分享给大家,希望可以做个参考。

关于信息熵最大值的讨论

  • 最大离散熵定理
  • 均值受限的最大熵值
  • 参考书目

最大离散熵定理

qquad 一般的离散信源的r个概率分量分别为 p 1 , p_1, p1, p 2 , p_2, p2, . . . , ..., ..., p r , p_r, pr,必须满足条件 ∑ i = 1 r p i = 1 sum_{i=1}^rp_i=1 i=1rpi=1.熵函数 H ( p 1 , p 2 , . . . , p r ) H(p_1,p_2,...,p_r) H(p1,p2,...,pr)的最大值,即在满足约束条件 ∑ i = 1 r p i = 1 sum_{i=1}^rp_i=1 i=1rpi=1的条件下,熵函数 H ( p 1 , p 2 , . . . , p r ) H(p_1,p_2,...,p_r) H(p1,p2,...,pr)的最大值。

以下为求解证明过程:
按照在高数上求取极值点的方法,首先根据拉格朗日数乘法,做出辅助函数,如下所示:
F ( p 1 , p 2 , . . . , p r ) = H ( p 1 , p 2 , . . . , p r ) + λ [ ∑ i = 1 r p i − 1 ] = − ∑ i = 1 r p i l n p i + λ [ ∑ i = 1 r p i − 1 ] ( 公 式 1 ) F(p_1,p_2,...,p_r)=H(p_1,p_2,...,p_r)+lambda[sum_{i=1}^r{p_i-1}] \ quadquadquadquadquad=-sum_{i=1}^r{p_ilnp_i+lambda[sum_{i=1}^rp_i-1]}qquadqquadqquad(公式1) F(p1,p2,...,pr)=H(p1,p2,...,pr)+λ[i=1rpi1]=i=1rpilnpi+λ[i=1rpi1](1)

qquad 在公式中, λ lambda λ为待定常数,对辅助函数 F ( p 1 , p 2 , . . . , p r ) F(p_1,p_2,...,p_r) F(p1,p2,...,pr)中的r个变量 p i ( i = 1 , 2 , . . . , r ) p_i (i=1,2,...,r) pi(i=1,2,...,r),分别求偏导,并使之为0,可以得到方程;
− ( 1 + l n p i ) + λ = 0 ( i = 1 , 2 , . . . , r ) ( 公 式 2 ) quadquadquad-(1+lnp_i)+lambda=0 quadquad(i=1,2,...,r)qquadqquad(公式2) (1+lnpi)+λ=0(i=1,2,...,r)(2)

对上述方程求解可得:
p i = e λ − 1 ( i = 1 , 2 , . . . , r ) ( 公 式 3 ) qquadqquadqquad p_i=e^{lambda-1}quadquad(i=1,2,...,r)qquadqquadqquad(公式3) pi=eλ1(i=1,2,...,r)(3)

将以上公式三带入 ∑ i = 1 r p i = 1 sum_{i=1}^rp_i=1 i=1rpi=1可得:
∑ i = 1 r p i = ∑ i = 1 r e ( λ − 1 ) = r e ( λ − 1 ) = 1 quad sum_{i=1}^rp_i=sum_{i=1}^re^{(lambda-1)}=re^{(lambda-1)}=1 i=1rpi=i=1re(λ1)=re(λ1)=1

对上式整理可得:
e ( λ − 1 ) = 1 r ( 公 式 4 ) qquadqquadqquadquad e^{(lambda-1)}=frac{1}{r} qquadqquad(公式4) e(λ1)=r1(4)

qquad 由上边的公式三和公式四可以解得使熵函数 H ( p 1 , p 2 , . . . , p r ) H(p_1,p_2,...,p_r) H(p1,p2,...,pr)取得的条件极大值,也就是熵函数 H ( p 1 , p 2 , . . . , p r ) H(p_1,p_2,...,p_r) H(p1,p2,...,pr)的最大值的信源符号 a i ( i = 1 , 2 , . . . , r ) a_i (i=1,2,...,r) ai(i=1,2,...,r)相应的概率分布
p i = 1 r ( i = 1 , 2 , . . . , r ) ( 公 式 5 ) quadqquadquad p_i=frac{1}{r} qquadqquad (i=1,2,...,r)qquad(公式5) pi=r1(i=1,2,...,r)(5)

根据公式五可以求得熵函数的最大值
H 0 ( p 1 , p 2 , . . . , p r ) = H ( 1 r , 1 r , . . . , 1 r ) = − ∑ i = 1 r 1 r l o g 1 r = l o g r ( 比 特 / 信 符 ) ( 公 式 6 ) H_0(p_1,p_2,...,p_r)=H(frac1r,frac1r,...,frac1r)\ quadquadqquadqquad=-sum_{i=1}^r{frac1rlog{frac1r}}\qquadqquadqquadqquadqquadqquad=logr (比特/信符)(公式6) H0(p1,p2,...,pr)=H(r1,r1,...,r1)=i=1rr1logr1=logr(/)6

在一般情况下,离散信源的熵不会超过公式6所计算的数值,也就出现了以下的公式:
H ( p 1 , p 2 , . . . , p r ) ≤ l o g r ( 比 特 / 信 符 ) ( 公 式 7 ) quadquadqquad H(p_1,p_2,...,p_r)leq{logr} qquad(比特/信符)quad(公式7) H(p1,p2,...,pr)logr(/)(7)

quad 以上也就是最大离散熵定理的证明过程。这个定理表明,在所有符号种数相同,而符号的概率分布不同的离散信源中,以先验等概的离散的信源的信息熵最大,其最大值为信源符号种数 r r r的对数。这说明,离散信源熵的最大值,只取决于信源的符号种数 r r r,符号种数 r r r越大,其信息熵的最大值也越大。

均值受限的最大熵值

qquad 最大 离散熵是离散信源在满足约束条件 ∑ i = 1 r p i = 1 sum_{i=1}^rp_i=1 i=1rpi=1下,推导得出的一般性结论,如果在此基础上再加上一个约束条件:信源输出符号 a i ( i = 1 , 2 , . . . , r ) a_i (i=1,2,...,r) ai(i=1,2,...,r)的均值受限,即
∑ i = 1 r a i p i = m sum_{i=1}^r{a_ip_i}=m i=1raipi=m
同样的,采用拉格朗日数乘法来构造辅助函数:
F ( p 1 , p 2 , . . . , p r ) = H ( p 1 , p 2 , . . . , p r ) + λ 1 [ ∑ i = 1 r p i − 1 ] + λ 2 [ ∑ i = 1 r a i p i − m ] F(p_1,p_2,...,p_r)=H(p_1,p_2,...,p_r)+lambda_1[sum_{i=1}^r{p_i-1}]\+lambda_2[{sum_{i=1}^r}a_ip_i-m] F(p1,p2,...,pr)=H(p1,p2,...,pr)+λ1[i=1rpi1]+λ2[i=1raipim]

qquad 其中的 λ 1 lambda_1 λ1 λ 2 lambda_2 λ2均为待定常数,对辅助函数 F ( p 1 , p 2 , . . . , p r ) F(p_1,p_2,...,p_r) F(p1,p2,...,pr)中的变量 p i ( i = 1 , 2 , . . . , r ) p_i (i=1,2,...,r) pi(i=1,2,...,r)分别求偏导,并使其为0,可得如下方程:
− ( 1 + l n p i ) + λ 1 + λ 2 a i = 0 ( i = 1 , 2 , . . . , r ) -(1+ln{p_i})+lambda_1+lambda_2a_i=0 qquad(i=1,2,...,r) (1+lnpi)+λ1+λ2ai=0(i=1,2,...,r)

对上述方程整理可得 p i p_i pi 表达式:
p i = e λ 1 − 1 e λ 2 a i ( i = 1 , 2 , . . . , r ) p_i=e^{lambda_1-1}e^{lambda_2a_i}qquad(i=1,2,...,r) pi=eλ11eλ2ai(i=1,2,...,r)

p i p_i pi带入约束方程 ∑ i = 1 r p i = 1 sum_{i=1}^rp_i=1 i=1rpi=1得:
∑ i = 1 r e λ 1 − 1 e λ 2 a i = 1 ⟹ e ( λ 1 − 1 ) = 1 ∑ i = 1 r e λ 2 a i sum_{i=1}^r{e^{lambda_1-1}e^{lambda_2a_i}}=1Longrightarrow e^{(lambda_1-1)}=frac1{sum_{i=1}^r{e^{lambda_2a_i}}} i=1reλ11eλ2ai=1e(λ11)=i=1reλ2ai1

结合 p i p_i pi公式,对上式等式两边同乘 e λ 2 a i e^{lambda_2a_i} eλ2ai可得:
e λ 2 a i e ( λ 1 − 1 ) = e λ 2 a i ∑ i = 1 r e λ 2 a i ⟹ p i = e λ 2 a i ∑ i = 1 r e λ 2 a i ( i = 1 , 2 , . . . , r ) ( 公 式 1 ) e^{lambda_2a_i}e^{(lambda_1-1)}=frac{e^{lambda_2a_i}}{sum_{i=1}^r{e^{lambda_2a_i}}}Longrightarrow p_i=frac{e^{lambda_2a_i}}{sum_{i=1}^r{e^{lambda_2a_i}}}quad(i=1,2,...,r)qquad(公式1) eλ2aie(λ11)=i=1reλ2aieλ2aipi=i=1reλ2aieλ2ai(i=1,2,...,r)(1)

再由另一个约束条件 ∑ i = 1 r a i p i = m sum_{i=1}^r{a_ip_i}=m i=1raipi=m,将p_i带入可得:
∑ i = 1 r a i e λ 2 a i ∑ j = 1 r e λ 2 a j = m sum_{i=1}^r{a_ifrac{e^{lambda_2a_i}}{sum_{j=1}^r{e^{lambda_2a_j}}}}=m i=1raij=1reλ2ajeλ2ai=m

在计算 ∑ i = 1 r a i ( . ) sum_{i=1}^r{a_i(.)} i=1rai(.)时,可将 ∑ j = 1 r e λ 2 a j sum_{j=1}^r{e^{lambda_2a_j}} j=1reλ2aj视为常数 C C C,则有:
∑ i = 1 r a i e λ 2 a i C = m ⟹ ∑ i = 1 r a i e λ 2 a i = C m = m ∑ j = 1 r e λ 2 a j ( 公 式 2 ) sum_{i=1}^r{a_ifrac{e^{lambda_2a_i}}{C}}=m Longrightarrow sum_{i=1}^ra_ie^{lambda_2a_i}=Cm=m sum_{j=1}^r{e^{lambda_2a_j}}qquad(公式2) i=1raiCeλ2ai=mi=1raieλ2ai=Cm=mj=1reλ2aj(2)

qquad 由上式可以求得待定常数 λ 2 lambda_2 λ2,并将其带入公式1 p i p_i pi表达式,则可以得出使得熵函数 H ( p 1 , p 2 , . . . , p r ) H(p_1,p_2,...,p_r) H(p1,p2,...,pr)达到最大值的 p 1 , p 2 , p 3 , . . . , p i p_1,p_2,p_3,...,p_i p1,p2,p3,...,pi等各个频率分量,进而求得熵函数的最大值。
事实上,我们可以根据概率分量 p i ( i = 1 , 2 , . . . , r ) p_i (i=1,2,...,r) pi(i=1,2,...,r)的表达式,就可以直接构成满足约束条件 ∑ i = 1 r p i = 1 sum_{i=1}^rp_i=1 i=1rpi=1 ∑ i = 1 r a i p i = m sum_{i=1}^r{a_ip_i}=m i=1raipi=m的最大熵表达式:
H 0 ( p 1 , p 2 , . . . , p r ; m ) = − ∑ i = 1 r p i l n p i = − ∑ i = 1 r [ e λ 2 a i ∑ j = 1 r e λ 2 a j l n e λ 2 a i ∑ j = 1 r e λ 2 a j ] = − ∑ i = 1 r [ e λ 2 a i ∑ j = 1 r e λ 2 a j l n ( e λ 2 a i ) ] + ∑ i = 1 r [ e λ 2 a i ∑ j = 1 r e λ 2 a j l n ( ∑ j = 1 r e λ 2 a j ) ] ( 式 3 ) H_0(p_1,p_2,...,p_r;m)=-sum_{i=1}^r{p_ilnp_i}\=-sum_{i=1}^r left[{frac{e^{lambda_2a_i}}{sum_{j=1}^r{e^{lambda_2a_j}}}ln{frac{e^{lambda_2a_i}}{sum_{j=1}^r{e^{lambda_2a_j}}}}}right]\ =-sum_{i=1}^rleft[{frac{e^{lambda_2a_i}}{sum_{j=1}^r{e^{lambda_2a_j}}}}ln{(e^{lambda_2a_i})}right]+sum_{i=1}^r{left[frac{e^{lambda_2a_i}}{sum_{j=1}^re^{lambda_2a_j}}ln{(sum_{j=1}^re^{lambda_2a_j})}right]}qquad(式3) H0(p1,p2,...,pr;m)=i=1rpilnpi=i=1r[j=1reλ2ajeλ2ailnj=1reλ2ajeλ2ai]=i=1r[j=1reλ2ajeλ2ailn(eλ2ai)]+i=1r[j=1reλ2ajeλ2ailn(j=1reλ2aj)](3)
qquad 对于上式的化简,我们采用与第一节同样的方法,在计算 ∑ i = 1 r ( . ) sum_{i=1}^r{(.)} i=1r(.)时,可将 ∑ j = 1 r e λ 2 a j sum_{j=1}^r{e^{lambda_2a_j}} j=1reλ2aj视为常数 C 1 C_1 C1,将上式化简如下:
式 3 = − ∑ i = 1 r [ e λ 2 a i C 1 l n ( e λ 2 a i ) ] + ∑ i = 1 r [ e λ 2 a i C 1 l n ( ∑ j = 1 r e λ 2 a j ) ] = − ∑ i = 1 r e λ 2 a i C 1 l n ( e λ 2 a i ) + ∑ i = 1 r e λ 2 a i C 1 l n ( ∑ j = 1 r e λ 2 a j ) = − λ 2 ∑ i = 1 r a i e λ 2 a i C 1 + ∑ i = 1 r e λ 2 a i C 1 l n ( ∑ j = 1 r e λ 2 a j ) ( 式 4 ) 式3=-sum_{i=1}^rleft[{frac{e^{lambda_2a_i}}{C_1}}ln{(e^{lambda_2a_i})}right]+sum_{i=1}^r{left[frac{e^{lambda_2a_i}}{C_1}ln{(sum_{j=1}^re^{lambda_2a_j})}right]}\=-frac{sum_{i=1}^re^{lambda_2a_i}}{C_1}ln(e^{lambda_2a_i})+frac{sum_{i=1}^re^{lambda_2a_i}}{C_1}ln{(sum_{j=1}^re^{lambda_2a_j})}\=-frac{lambda_2sum_{i=1}^ra_ie^{lambda_2a_i}}{C_1}+frac{sum_{i=1}^re^{lambda_2a_i}}{C_1}ln{(sum_{j=1}^re^{lambda_2a_j})}qquad(式4) 3=i=1r[C1eλ2ailn(eλ2ai)]+i=1r[C1eλ2ailn(j=1reλ2aj)]=C1i=1reλ2ailn(eλ2ai)+C1i=1reλ2ailn(j=1reλ2aj)=C1λ2i=1raieλ2ai+C1i=1reλ2ailn(j=1reλ2aj)(4)

在公式2两端同乘 λ 2 lambda_2 λ2
λ 2 ∑ i = 1 r a i e λ 2 a i = m λ 2 ∑ j = 1 r e λ 2 a j lambda_2sum_{i=1}^ra_ie^{lambda_2a_i}=mlambda_2 sum_{j=1}^r{e^{lambda_2a_j}} λ2i=1raieλ2ai=mλ2j=1reλ2aj

带入上述公式4则有:
式 4 = − m λ 2 ∑ i = 1 r e λ 2 a i C 1 + ∑ i = 1 r e λ 2 a i C 1 l n ( ∑ j = 1 r e λ 2 a j ) = − m λ 2 C 1 C 1 + C 1 C 1 l n ( ∑ j = 1 r e λ 2 a j ) = − m λ 2 + l n ( ∑ j = 1 r e λ 2 a j ) 式4=-frac{mlambda_2 sum_{i=1}^r{e^{lambda_2a_i}}}{C_1}+frac{sum_{i=1}^re^{lambda_2a_i}}{C_1}ln{(sum_{j=1}^re^{lambda_2a_j})}\=-frac{mlambda_2 C_1}{C_1}+frac{C_1}{C_1}ln{(sum_{j=1}^re^{lambda_2a_j})}\=-mlambda_2+ln{(sum_{j=1}^re^{lambda_2a_j})} 4=C1mλ2i=1reλ2ai+C1i=1reλ2ailn(j=1reλ2aj)=C1mλ2C1+C1C1ln(j=1reλ2aj)=mλ2+ln(j=1reλ2aj)

经过化简以后最大熵函数得表达式为:
H 0 ( p 1 , p 2 , . . . , p r ; m ) = − m λ 2 + l n ( ∑ j = 1 r e λ 2 a j ) ( 式 5 ) H_0(p_1,p_2,...,p_r;m)=-mlambda_2+ln{(sum_{j=1}^re^{lambda_2a_j})}qquad(式5) H0(p1,p2,...,pr;m)=mλ2+ln(j=1reλ2aj)(5)

qquad 最后再将公式2解出的待定常数 λ 2 lambda_2 λ2带入式5,则可以直接计算出熵函数 H 0 ( p 1 , p 2 , . . . , p r ; m ) H_0(p_1,p_2,...,p_r;m) H0(p1,p2,...,pr;m)的最大值。

参考书目

信息论与编码第二版 姜丹编著

最后

以上就是勤奋花卷最近收集整理的关于关于信息熵最大值的讨论最大离散熵定理均值受限的最大熵值参考书目的全部内容,更多相关关于信息熵最大值内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(136)

评论列表共有 0 条评论

立即
投稿
返回
顶部