百科问答小站 logo
百科问答小站 font logo



如何理解香农第一定理? 第1页

  

user avatar   yi-suo-yan-yu-ren 网友的相关建议: 
      

其实香农第一定理是非常厉害的一个定理,它给出了在无损情况下,数据压缩的临界值。

不要小瞧这简简单单的一句话,正因为给出了理论上的下界,所以才会产生各式各样的编码办法。符号序列有广为流传的哈夫曼码,香农码等等。还有在图片和视频领域所广泛应用的各种编码方法,比如Golomb、游程编码、预测编码等。

在我们日常生活中接触到的图片格式JPEG、PDF、PNG以及常见的视频格式MP4等,都没有能够逃脱香农第一定理的制裁。下图列出了一些常见的图片和视频格式,有的常见,有的不常见

但无一例外,不论采用哪种格式保存一张图片或者视频,所需要的比特数都大于香农第一定理所给出的值(我这里说的是无损压缩,有损压缩请对应率失真定理)。可以说,任何压缩方法都是在这个圈子里兜兜转转,是跳不出来的。接下来,我详细说一下香农第一定理的数学化表述:

考虑序列发送系统,其中的序列都是来自于 的 个字符。如果序列中的每一个字符都服从 分布,也就是说,它们独立同分布。

那么:

其中 为每输入字符期望码字长度,因此,通过使用足够大的分组长度,可以获得一个编码,可以使其每字符期望码长任意地接近熵

那么问题就来了,如果不是独立同分布怎么办,那岂不是凉凉?当然有解决办法,这个东西叫做熵率,而下面这个式子也是更具有普适的理论价值。

其中 是联合熵。仔细观察该式子,你不会觉得很有意思吗?

对于一个随机过程而言,它给出了最简洁描述该过程所需的每字符期望比特数。而随机过程,又恰恰可以建模很多现象和发展规律。也就是说,上式是一个具有普适价值的式子,这就很难得了。

举例来说,你有一张Lena的照片,像这样

你可以从理论上给出它的下界,之后所有的压缩方法(无损情况)都只能不断地向着这个下界去斗争,去接近,但是永远也不可能得到一样。

当然了,它本身也有缺陷所在。它给出了临界值,固然很好,但是从计算的角度上看,它们往往是不切实际的,编码方案的不断升级,就是在接近香农熵的过程中,实现计算的实用性




  

相关话题

  怎么解决这个积分题目? 
  如果炸弹每秒钟爆炸概率提高一点,从数学期望上来看最有可能在哪一秒爆炸? 
  极坐标表示 5000 到 50000 之间的素数为什么会形成一条螺旋线? 
  「羊车门」经典概率题中不换门选中车的概率是多少? 
  当游戏设计师需要具备哪些基本素养? 
  高代,中间这一步是怎么来的呀? 
  如果高中生能证明哥德巴赫猜想,会被清华北大数学系保送吗? 
  设σ(n)是n的所有正因数之和,如何证明存在无数个正整数n使得σ(n)是完全平方数? 
  3³+4³+5³=6³,只是个巧合吗? 
  你见过最巧妙的数学证明是什么? 

前一个讨论
为什么美国宁可重金购买f15ex,也不要重启f22的生产呢?
下一个讨论
如何看待武汉市民在烈士陵园跳广场舞,称「人民快乐是烈士的期望」?





© 2024-09-19 - tinynew.org. All Rights Reserved.
© 2024-09-19 - tinynew.org. 保留所有权利