百科问答小站 logo
百科问答小站 font logo



如何理解香农第一定理? 第1页

  

user avatar   yi-suo-yan-yu-ren 网友的相关建议: 
      

其实香农第一定理是非常厉害的一个定理,它给出了在无损情况下,数据压缩的临界值。

不要小瞧这简简单单的一句话,正因为给出了理论上的下界,所以才会产生各式各样的编码办法。符号序列有广为流传的哈夫曼码,香农码等等。还有在图片和视频领域所广泛应用的各种编码方法,比如Golomb、游程编码、预测编码等。

在我们日常生活中接触到的图片格式JPEG、PDF、PNG以及常见的视频格式MP4等,都没有能够逃脱香农第一定理的制裁。下图列出了一些常见的图片和视频格式,有的常见,有的不常见

但无一例外,不论采用哪种格式保存一张图片或者视频,所需要的比特数都大于香农第一定理所给出的值(我这里说的是无损压缩,有损压缩请对应率失真定理)。可以说,任何压缩方法都是在这个圈子里兜兜转转,是跳不出来的。接下来,我详细说一下香农第一定理的数学化表述:

考虑序列发送系统,其中的序列都是来自于 的 个字符。如果序列中的每一个字符都服从 分布,也就是说,它们独立同分布。

那么:

其中 为每输入字符期望码字长度,因此,通过使用足够大的分组长度,可以获得一个编码,可以使其每字符期望码长任意地接近熵

那么问题就来了,如果不是独立同分布怎么办,那岂不是凉凉?当然有解决办法,这个东西叫做熵率,而下面这个式子也是更具有普适的理论价值。

其中 是联合熵。仔细观察该式子,你不会觉得很有意思吗?

对于一个随机过程而言,它给出了最简洁描述该过程所需的每字符期望比特数。而随机过程,又恰恰可以建模很多现象和发展规律。也就是说,上式是一个具有普适价值的式子,这就很难得了。

举例来说,你有一张Lena的照片,像这样

你可以从理论上给出它的下界,之后所有的压缩方法(无损情况)都只能不断地向着这个下界去斗争,去接近,但是永远也不可能得到一样。

当然了,它本身也有缺陷所在。它给出了临界值,固然很好,但是从计算的角度上看,它们往往是不切实际的,编码方案的不断升级,就是在接近香农熵的过程中,实现计算的实用性




  

相关话题

  高中数学有没有可能在往后的人生中几乎用不到,如果有,那我们学习的意义是什么? 
  挑战! 笔算计算3^6024和7^3401哪个大? 
  如何通俗易懂地解释遗传算法?有什么例子? 
  做计算PhD的研究是否如丁仲礼所说的那么不靠谱? 
  如何评价知乎用户@Aries? 
  一般五次及其以上的一元多项式方程有三角函数解吗? 
  请问这两个在表达方式上很相似的结论是否有相通的地方(感觉他们证明方法也很像)? 
  为什么我国现在在数学IMO取得第一的成绩,但杰出数学家却几乎没有? 
  如果让一个大学数学系的顶尖学霸去解一道高中极其困难的数学题,他还能解出来吗? 
  如何证明这个关于ζ(5)的等式? 

前一个讨论
为什么美国宁可重金购买f15ex,也不要重启f22的生产呢?
下一个讨论
如何看待武汉市民在烈士陵园跳广场舞,称「人民快乐是烈士的期望」?





© 2025-05-14 - tinynew.org. All Rights Reserved.
© 2025-05-14 - tinynew.org. 保留所有权利