百科问答小站 logo
百科问答小站 font logo



如何理解香农第一定理? 第1页

  

user avatar   yi-suo-yan-yu-ren 网友的相关建议: 
      

其实香农第一定理是非常厉害的一个定理,它给出了在无损情况下,数据压缩的临界值。

不要小瞧这简简单单的一句话,正因为给出了理论上的下界,所以才会产生各式各样的编码办法。符号序列有广为流传的哈夫曼码,香农码等等。还有在图片和视频领域所广泛应用的各种编码方法,比如Golomb、游程编码、预测编码等。

在我们日常生活中接触到的图片格式JPEG、PDF、PNG以及常见的视频格式MP4等,都没有能够逃脱香农第一定理的制裁。下图列出了一些常见的图片和视频格式,有的常见,有的不常见

但无一例外,不论采用哪种格式保存一张图片或者视频,所需要的比特数都大于香农第一定理所给出的值(我这里说的是无损压缩,有损压缩请对应率失真定理)。可以说,任何压缩方法都是在这个圈子里兜兜转转,是跳不出来的。接下来,我详细说一下香农第一定理的数学化表述:

考虑序列发送系统,其中的序列都是来自于 的 个字符。如果序列中的每一个字符都服从 分布,也就是说,它们独立同分布。

那么:

其中 为每输入字符期望码字长度,因此,通过使用足够大的分组长度,可以获得一个编码,可以使其每字符期望码长任意地接近熵

那么问题就来了,如果不是独立同分布怎么办,那岂不是凉凉?当然有解决办法,这个东西叫做熵率,而下面这个式子也是更具有普适的理论价值。

其中 是联合熵。仔细观察该式子,你不会觉得很有意思吗?

对于一个随机过程而言,它给出了最简洁描述该过程所需的每字符期望比特数。而随机过程,又恰恰可以建模很多现象和发展规律。也就是说,上式是一个具有普适价值的式子,这就很难得了。

举例来说,你有一张Lena的照片,像这样

你可以从理论上给出它的下界,之后所有的压缩方法(无损情况)都只能不断地向着这个下界去斗争,去接近,但是永远也不可能得到一样。

当然了,它本身也有缺陷所在。它给出了临界值,固然很好,但是从计算的角度上看,它们往往是不切实际的,编码方案的不断升级,就是在接近香农熵的过程中,实现计算的实用性




  

相关话题

  有没有可能把 π 或 e 等无理数当成 1,这样就能使许多定理显而易见? 
  怎样利用格理论,也就是 minkowski 基本定理来证明拉格朗日四平方和定理以及费马平方和定理? 
  这个数列问你证明收敛呀? 
  网上常能见到的一段 JS 随机数生成算法如下,为什么用 9301, 49297, 233280 这三个数字做基数? 
  关于算法导论定理3.1,为什么感觉快速排序的时间复杂度不满足这个定理? 
  站在一个无穷大的围棋/五子棋盘上的任意格点上,能够看到的格点都放上黑棋,黑棋占格点比例多少? 
  爱因斯坦搞统一场论为什么失败?是因为数学知识不够吗? 
  为什么我们要学数学,长大之后数学能用在哪? 
  一个天资平平,数学基础非常差的高一学生,打算日后进行纯数研究,是否应该对其进行劝退? 
  除了π,e,0.618,还有没有其他一些有特殊意义的数? 

前一个讨论
为什么美国宁可重金购买f15ex,也不要重启f22的生产呢?
下一个讨论
如何看待武汉市民在烈士陵园跳广场舞,称「人民快乐是烈士的期望」?





© 2024-09-19 - tinynew.org. All Rights Reserved.
© 2024-09-19 - tinynew.org. 保留所有权利