信息熵及其性质和应用

 青岛农业大学

 本

 科

 生

 课

 程

 论

 文

 论 文 题 目

  信息熵及其性质与应用

 学生专业班级

 信息与计算科学 09 级 2 班

 学生学号姓名

  20093992

 指 导 教 师

 吴

  慧

 完 成 时 间

  2012 年 06 月 25 日

  2012 年

 06 月

 25 日 课

 程

 论

 文

 任

 务

 书

 学生姓名

  指导教师

  吴慧

 论文题目

  信息熵及其性质与应用

  论文内容(需明确列出研究的问题):研究信息熵的目的就就是为了更深入的了解信息熵,更好的了解信息熵的作用,更好地使用它解决现实生活中的问题。文中介绍了信息熵的定义与性质及其应用。使我们对信息熵有跟深入的了解 。

  资料、数据、技术水平等方面的要求:论文要符合一般学术论文的写作规范,具备学术性、科学性与一定的创造性。文字要流畅、语言要准确、论点要清楚、论据要准确、论证要完整、严密,有独立的观点与见解。内容要理论联系实际,计算数据要求准确,涉及到她人的观点、统计数据或计算公式等要标明出处,结论要写的概括简短。参考文献的书写按论文中引用的先后顺序连续编码。

  发出任务书日期

  06 月 15 日

  完成论文日期

  06 月 25 日

  教研室意见(签字)

 院长意见(签字)

 信息熵及其性质与应用

 信息与计算科学专业

  指导教师

  吴慧 摘要 : : 信息熵就是随机变量不确定性的度量,文中从信息熵的定义出发,结合信息熵的性质,介绍了目前信息熵在具体问题中的应用。信息就是一个十分通俗而又广泛的名词,它就是人类认识世界、改造世界的知识源泉。人类社会发展的速度,在一定程度上取决于人类对信息利用的水平,所以对信息的度量就很有必要。香农提出信息的一种度量,熵的定义形式,它就是随机变量不确定性的度量,文中主要介绍熵的性质及其应用。

 关键词; ;信息熵

  性质

  应用

 Information entropy and its properties and Application Student majoring in Information and Computing Science Specialty

 dongqiang Tutor

  WuHui Abstract : information entropy is a measure of uncertainty of random variable, this paper from the definition of information entropy, combined with the nature of information entropy, information entropy, introduced the specific issues in the application of、Information is a very popular and

 wi dely noun, it is human understanding of the world, transforming the world knowledge source 、 The human society development speed, depend on on certain level the human make use of information level,

 so the measurement information is necessary、Shannon put forward the informa-tion a kind of measurement, the definition of entropy form,

 it is the uncertainty of random variable metric, this paper mainly introduces the property of entropy and its application、 Key words:information entropy

 properties

 application 引言:作为一种通俗的解释,熵就是一种不规则性的测量尺度.这一种解释起源于香农在通讯理论的研究中,为确定信息量而提出的一种熵测度.对于离散概率分布p=(p 1 ,p…,p n ),香农熵定义为H(X)=E[I(ix )]= ip logip 在p 1 +p 2 +p 3 +…p k =1的条件下,为使H(X)最大,显然就是p i =1/k(i=1,2,…,k),即在等概率分布情况下H(X)达到最大值,换句话说,熵的值与不规则度(如果以等概率分布作为不规则性的极端表现)就是一致的.这就是熵作为一个概率测度的理论基础.物理学的发展为熵理论提供了更为现实的应用背景,热力学的第二法则既就是所谓熵增大的法则,对孤立的系统,系统的热力学状态只能假定在熵增大的方向上起变化,Boltzmann原理把熵引入了热力学的研究领域,她所提供的著名关系式S=klogw(w就是系统状态的概率)就是后来Planck的量变论及爱因斯坦的光量子理论开展的基础.人们对熵的认识与应用很长一段时间内都局限于理论物理领域,直到本世纪中叶,一些人开始注意到熵对系统不确定性度量的一般性,试图在行为科学与社会科学中更广泛地引用熵,对一些复杂现象加以刻划。

 信息熵 (entropy ) 的概念

 设一个离散型随机变量与它的概率分布为 任意随机事件的自信息量定义为该事件发生概率的对数的负值,即I(ix )   111 2 11 2 11

  , 1 0

  ) (nii in nn np pp p p px x x xx pX

 =-logip 。自信息量I(ix )就是指某一信源X 发出某一消息信号ix 所含有的信息量,发出的消息不同,它们所含的信息量也就不同,因此自信息量就是一个随机变量,它不能用来作为整个信源的信息测度。香农将平均自信息量定义为信息熵,简称为熵。即H(X)=E[I(ix )]= ip logip 。

 二、信息熵的性质

 1、对称性: :

 设某一概率系统中 n 个事件的概率分布为np p , ,1 ,当对事件位置的顺序进行任意置换后,得到新的概率分布为/ /1, ,np p  ,并有以下关系成立: H(np p , ,1 )=H (/ /1, ,np p  )它表示概率系统中事件的顺序虽不同,但概率系统的熵值就是不变的,即概率系统的熵与事件的顺序无关。

 2、非负性: : 因为每个 p<1,所以它们的以不小于 1 的数为底的对数就是不大于零的。

 3、确定性: 设信息系统中,任一事件产生的概率为 1,则其她事件产生的概率为 0。这就是一 种 确 定 的 系 统 , 对 于 这 样 的 系 统 有 :H(1,0)=H(1,0,0)=H(1,0,0,0)= … =H (1,0,0,…,0)=0若信源中只要有一个事件就是必然事件,则其余事件为不可能事件。

 此时,信源中每个事件对熵的贡献都为 0,因而熵总为零。

 4、扩展性: 若集合 X 有 n 个事件,另一集合 Y 中有 n+1 个事件,但集合 X 与 Y 的差别只就是多了一个概率近于零的事件,则两个集合的熵值就是一样的。即一个事件的概率与集合中其它事件相比很小时,它对于集合的熵值的贡献就可以忽略不计。式子表达如下:

    n n n np p p H p p p H Lim , , , , . , ,2 1 2 1 10   

  5、可加性与强可加性: (涉及到了两个变量!) H(XY)为两个随机变量的联合熵。

 可加性:H(XY)等于 X 的无条件熵,加上已知 X 时

 Y 的条件概率的熵的平均值,即条件熵

  对于 X 与 Y 独立的情况有:

 (强可加性)

 6 6、 、递增性: :(子集再划分,第 n 个分为 m 个)

 按照定义证明:

 0 ) , , (2 1qp p p H ) | ( ) ( ) ( X Y H X H XY H    qii ji jqjix y px y p x p X Y H1 1) | (1log ) | ( ) ( ) | () ( ) ( ) ( Y H X H XY H  y x xp p x y P x P xy P    ) | ( ) ( ) (; 0 1 ; 0 1) , , ( ) , , (log ) ( ) (loglog loglog ) ( log ) ( ) (1 112 1 2 1,.,.,.,.                  ijmjij iniiniim i i m i n nniij ijmjinimjj i im nj iij ij im nj ii ij im nj iij i ij im nj ij i j i nmp p p pp p p H p p p p Hp p p y x p pp p p p p pp p p p y x p y x p XY H        mjn jniinmn nm nn n n m n m np q ppqpqpqH pp p p p H q q q p p p H1 12 11 2 1 2 1 1 2 1 1, 1 ), , , , () , , , , ( ) , , , , , (  m n nmin n i ninnnniiimiiim niniiiii m nH p Hp p q pqpppppqqpppp p H            1 11111111/1log1log1log1log1log1log ) (

 例题:计算

 7、极值性:

 可利用两个引理证明;(以后再利用 Jensen 证明。)

 引理 1 :对于 x > 0 引理 2 : 其中:

 8、上凸性:

 就是 P 的上凸函数 即对于

  与两个概率矢量

 ,有:

 函数 f 的图象

 几何解释:

  f(EP)总在 Ef(P) 上边 9 9、 、1 1

 证明离散平稳信源有    1 2 2 1 3X X H X X X H  ,试说明等式成立的条件。

 解:      2 1 3 321 2 1 3log x x x P x x x P X X X H 

       2 1 3 2 1 3 2 1log3 1 2x x x P x x x P x x Px x x  

       2 3 2 1 3 2 1log3 1 2x x P x x x P x x Px x x  

  =  2 3X X H

 根据信源的平稳性,有  2 3X X H =  1 2X X H ,因此有    1 2 2 1 3X X H X X X H 

 等式成立的条件就是   2 1 3x x x P  2 3x x P

 9 9、 、2 2

 证明离散信源有          N NX H X H X H X H X X X H      3 2 1 2 1,并说明等式成立 的条件。

 证明          1 2 1 2 1 3 2 2 1 2 1    N N NX X X X H X X X H X X H X H X X X H  

 而  1 2 1  N NX X X X H

     1 2 1 2 1log1 2    N NXNX Xx x x x P x x x PN  

      1 2 1 1 2 1 1 2 1log1 1 2       N NXN NXNX Xx x x x P X X X X P x x x PN N   

 )61,61,31,31( H) / ( 918 . 1 )21,21( )32,31()21,21(2132)21,21(32)32,31()41,41,21(32)32,31( )61,61,31,31(symbol bit H HH H HH H      qq q qH p p p Hqlog )1,1,1( ) , , (2 1   1 ln11     x xxi iqiqq p p p p H log ) , , (12 1     iiiiq p 1 ; 1) ( ) , , (2 1P H p p p Hq , 1 0   2 1 ,PP ) P ( H ) 1 ( ) P ( H ) P ) 1 ( P ( H2 1 2 1   θ θ θ θ     

      NXN NXNX Xx P X X X X P x x x PN Nlog1 2 1 1 2 11 1 2         

 =  NX H

 即

    2 1 2x H x x H 

     3 2 1 3x H x x x H  代入上述不等式,有          N NX H X H X H X H X X X H      3 2 1 2 1 等号成立的条件就是:    N N Nx p x x x x p 1 2 1

     1 2 2 1 1   N N Nx p x x x x p    2 1 2x p x x p 

 9 9 、 3

  在连续信源中,根据差熵、条件差熵与联合差熵的定义,证明 (1)h(X | Y) h(X ),当且仅当X 与Y 统计独立时等号成立; (2)        N NX h X h X h X X X h     2 1 2 1当且仅当X 1 X 2 NX

 彼此统计 独立时等式成立。

 证明: (1)

          dx y x p y x p dy y p XY h log  

       dx x p y x p dy y p log        X hdxdy x p y x p  log , 等号成立当且仅当p(x | y) p(x),即p(x, y) p(x) p(y),因此仅当X 与Y 统计 独立时等号成立。

 (2)根据条件概率密度的相关公式,有          1 2 1 2 1 3 2 2 1 2 1    N N NX X X X h X X X h X X h X h X X X h  

 根据(1)的结论,条件差熵小于差熵,因此有          N NX h X h X h X h X X X h      3 2 1 2 1 等号成立当且仅当    2 1 2x p x x p 

     3 2 1 3x p x x x p     N N Nx p x x x x p 1 2 1

 即      2 1 2 1x p x p x x p 

         3 2 1 3 2 1x p x p x p x x x p         N Nx p x p x p x x x p  2 1 2 1

 9 9、 、4 4

  N 维连续型随机序列NX X X 2 1,有概率密度以及 ) (2 1 NX X X p  以及    2i i im X E    。

 证明:当随机序列的分量各自达到正态分布并彼此统计独立时熵最大。最大熵为  NNeN 12 22212 log2    

 证明:          N NX h X h X h X h X X X h      3 2 1 2 1 等号成立当且仅当各分量统计独立。

 而对于任何一个分量而言,当    2i i im X E    时,高斯分布的差熵最大,为  22 log21i ie X h    因此原序列差熵的最大值为:   NX X X h 2 1212 log21  e +  222 log21  e22 log21Ne  

  = ] ) ( 2 log[212 2221NNeN    

 9 9 、 5

  N 维连续型随机序列NX X X 2 1,其各分量幅度分别受限为  i ib a , 。

 证

 明:当随机序列的分量各自达到均匀分布并彼此统计独立时熵最大。最大熵为 i iNia b  1log

 证明:          N NX h X h X h X h X X X h      3 2 1 2 1 等号成立当且仅当各分量统计独立。

 而对于任何一个分量而言,当幅度分别受限为[ , ] i i a b 时,均匀分布的差熵最大, 为   iX h  i ia b  log

 因此原序列差熵的最大值为:  NX X X h 2 1=    1 1log a b      2 2log a b  N Na b  log

 =  i iNia b  1log

 三、熵的应用

 熵就是信息理论中一个非常重要的概念,它就是衡量一个随机变量取值的不确定性程度。而就数据集合而言,熵可以作为数据集合的不规则程度的量度,所谓的不规则程度指的就是集合中前后数据元素之间时序依赖关系的强弱。对一个具体的系统来说,如果这个系统随机性很大、非常混乱、毫无秩序,则此系统的信息熵就一定很大。反之,如果一个系统就是确定的、具有一定的规则、服从一定的秩序,则此系统的信息熵就一定小。因此,可以把信息熵引申应用到对事物集合中一些相互对立性质的量度,判断事物集合中的有序与无序、确定性与随机性、组织性与散漫性、规则性与杂乱性、简并性与多样性,并对其相互对立的概念进行量度。结合信息熵的性质,它的应用十分广泛,在各个学科中都有它的影子。

 目前文献中信息熵在具体问题中的应用有信息熵在教学质量分析中的应用,信息熵在学生评教结果分析中的应用探析,信息熵在数据集分割中的应用,信息熵方法及其在教育信息处理中的应用,信息熵在缺陷漏磁信号量化中的应用,信息熵在电子数据取证领域中的应用,信息熵在图书分类决策中的应用,信息熵在网络流量矩阵估算中的应用,信息熵在粗糙集信息检索模型中的应用,信息熵在导航传感器故障诊断中的应用研究,信息熵在工程造价风险分析中的应用研究,信息熵缺陷漏磁信号量化中的应用,信息熵在电子数据取证领域中的应用,信息熵在图书分类决策中的应用,信息熵在网络流量矩阵估算中的应用,信息熵在粗糙集信息检索模型中的应用,信息熵在导航传感器故障诊断中的应用研究,信息熵在工程造价风险分析中的应用研究,信息熵在设计风险管理中的应用研究,信息熵在大型水利水电工程网络管理系统信息集成中的应用,信息熵在体育综合服务质量模糊评价中的应用,信息熵在水污染物总量区域公平分配中的应用,信息熵在项目沟通管理中的应用,信息熵在竞争情报计量分析中的应用,信息熵在体绘制视图选取中的应用,信息熵在基因调控网络构建中的应用,信息熵在入侵检测中的应用,信熵在建设工程评标中的应用,信息熵在农业技术扩散中的应用研

 究,信息熵在电子测量误差分析中的应用,信息熵在临床定量诊断分析中的应用,信息熵在建筑工程管理中的应用,信息熵在粗糙集理论中的应用,信息熵在优化问题中的应用,信息熵方法在胃癌诊断中的应用,信息熵在泥沙研究中的应用,信息熵在煤田勘探中的应用,信息熵理论在安全系统中的应用,信息熵在临床医学中的应用,信息熵在水系统中的应用研究,信息熵在现代生物医学中的应用,信息熵理论在煤炭企业经济效益评价中的应用等。

 四、结束语

 信息熵的性质与应用还远远不止文中列出的具体应用,这需要更多的人去学习信息熵的相关知识,利用信息熵这个有力的工具去研究或解决自己学科中的相关问题,所以我们相信信息熵的应用前景十分广阔。

 参考文献

 [1]

 曹雪虹,张宗橙、信息论与编码[M ]、北京:清华大学出版社,2004、 [2] 沈世镒,吴忠华、信息论基础与应用[M ]、北京:高等教育出版社,2004、 [3] 周荫清、信息理论基础[M ]、北京:北京航空航天大学出版社,2006、 [4] 张少艳、信息熵在教学质量分析中的应用[J]、红河学院学报, 2007 年第 5 卷第 2 期:77- 79、 [5] 傅祖芸 编著《信息论-基础理论与应用》,电子工业出版社,2006,第二版、 课

 程

 论

 文

 成

 绩

 评

 定

 表

 学生姓名 董强 专业班级 信息与计算科学 2009 级 02 班 论文题目 信息熵及其性质与应用 指导教师评语及意见: 指导教师评阅成绩:

  指导教师签字

 年

  月

  日 评阅人评语及意见: 评阅人评阅成绩:

  评阅人签字

  年

 月

  日 总评成绩(以百分记):

 年

 月

 日