世界上信息熵最大的语言是汉语吗？第1页

tiancaomei 网友的相关建议:

严谨一点的回答是，汉语是世界上信息熵最大的主流语言。

1948年，香农的《A mathematical theory of communication》一文震撼了学术界，从此开创了一个信息度量时代。既然事件发生的信息可以度量，语言也是一种信息传递手段，那么语言中的信息究竟是多少？世界上有最优的语言吗？

在正式开始之前，我们先来谈谈信息熵跟信息量之间的关系。

信息量是事件可能性不确定度的度量, 第 个可能性中信息量是 ，比如明天下雨有下雨不下雨两个可能性，下雨的概率是 ,那么下雨的信息量就是 .

信息熵指的是事件发生的所有可能性中包含信息的期望平均值,

。

这里的“事件”可以指代任何随机发生的事情，比如提笔写下随机一个字。如果对上述定义不是很理解的话，可以参考下边这个回答~

那么，如果想要计算一个事件的信息熵，需要什么要素呢？从信息熵公式，很明显可以看出是 事件发生的所有可能性，以及对应的概率。

我们为什么要计算语言的信息熵呢？

抛开兴趣不谈，其实从科学研究角度，语言的信息熵研究也有着非常现实的意义。如果可以准确的计算出语言的信息熵，那么就得到该语言的信息压缩的下界，即文本压缩算法到达这个界限再也无法压缩。这种算法就是该语言的最优压缩算法，不需要继续优化辣。

现在可以回到原来的问题，语言的信息熵究竟是多少？

这个问题的计算方式其实很直观，只需要代入信息熵的公式就可以了。但是困扰信息论和语言学者将近一个世纪的问题是，我们无法准确地知道一个语言中特定文字的出现概率，甚至有时难以统计某种语言中究竟有多少种字符。

信息论科学家只能通过各种手段来估计各个语言的信息熵，比如Shannon认为英语的信息熵在0.6到1.3bits/字之间[1]，Cover和King则认为英语的信息熵是1.25bits/字[2]。差异来自于样本和实验方法的不同。英语等表音文字只有24个字母，但是对于汉语，统计难度就大大增加了。幸运的是，当年信息论发展不久，各行各业的科学家都投入了极大兴趣来探索各种语言，即使中文有很大的特殊性，信息论前辈们也排除万难，用统计采样的方式计算了汉语的信息熵[3]（数据集不完备），

很明显，中文不论从以文字，部首还是音节作为统计基础，其信息熵都远远超过英语。

看到这里各位观众可能觉得已经满足了，但是这样计算出的实验结果并不能与其它语言直接对比。因为上述实验基于不同的数据集，不能确定实验样本是否蕴含着等量的信息，同样不能排除翻译人员的个人原因导致的信息误差。

2002年，哈佛大学的Frederi等人重新做了对比实验。他们认为，从过往的自然语言研究来看，自然语言都有着很多共同的统计特性和相似的模式。他们假设，对不同种类的语言，类似PPM这种基于马尔科夫的压缩算法会忽视语言特性，把文本压缩至逼近信息压缩下界[4]。

换句话说，如果采用的压缩算法不是针对某种语言特殊优化，不同的语言可以通过比较算法的压缩效率来近似比较信息熵。因此他们设计了一个实验，采用PPM算法压缩了各种不同版本的圣经：

如上图中，研究者们对比了英语，西班牙语，法语，中文，汉语，阿拉伯语，日文，俄语这些不同版本圣经的压缩前文件大小，压缩前文件大小与英文文件的比例，压缩后文件大小，压缩后文件大小与英文文件的比例等属性。理想条件下，如果翻译，压缩等过程没有信息损失，压缩后其他语言文件大小与英文文件的比例应该等于1。

我们可以很明显看到，中文的压缩效率低于其他文字，但是这个压缩效率是不是由于文本和压缩算法的原因引起的呢？他们又完成了如下两个实验，

第二个实验中采取了不同的压缩算法(BZIP2)，结果相似，说明并不是压缩算法导致的压缩效率低下。

第三个实验中采用了不同文本（欧盟法规），除英语外的所有译文都被扩充了，而中文是其中被扩充最多的。对此研究者的解释是，圣经的文本是非常普遍的词汇，而欧盟法规中包含着很多特殊词汇，从其他语言翻译需要很长的文字扩展。这种现象可能是由于法律文本总是期望采用一些特殊词汇来翻译，这些词汇在日常生活中出现的频率不高，因此显得信息很多。如果将法律文本翻译成普遍的词汇，需要做一些语言扩展。但是依然可以看出，中文是“压缩”效率最低的语言。

从上述三个对比实验结果，可以得到结论，中文是压缩效率最低的语言，或者可以认为是最接近信息熵界限的语言。

虽然这个实验设计的也并不完美，但是从多个实验结果来看和近似估计来看，

中文是英语，西班牙语，法语，中文，汉语，阿拉伯语，日文，俄语这些主流语言中信息熵最大的语言。

如果存在完美的语言，那么应当达到信息压缩下界，但是即使我们知道了信息压缩的下界，怎么达到它又是另外一个非常大的课题。

在找到办法准确计算语言的信息压缩下界之前，类似是否存在/是否可以设计完美语言的这种问题我们都无法回答。

[1] Shannon C E. Prediction and entropy of printed English[J]. Bell system technical journal, 1951, 30(1): 50-64.

[2] Cover T, King R. A convergent gambling estimate of the entropy of English[J]. IEEE Transactions on Information Theory, 1978, 24(4): 413-421.

[3] Wong K, Poon R. A Comment on the Entropy of the Chinese Language[J]. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1976, 24(6): 583-585.

[4] Fromkin V, Rodman R, Hyams N. An introduction to language[M]. Cengage Learning, 2018.

[5] Behr Jr F H, Fossum V, Mitzenmacher M D, et al. Estimating and comparing entropy across written natural languages using PPM compression[J]. 2002.

lin-xiao-63-71 网友的相关建议:

18世纪，北京话在奉天府（沈阳）、锦州府取代了原本一直通行到明末的昌黎话（由满文《三国志》对音可证）。

奉天府的北京话，是现代东北话（哈阜片~大碴子味）的正源，当时的沈阳话是大碴子味（饿=ne），跟近代闯关东之后受胶辽官话强烈影响的“曲么菜味”沈阳话不同。

锦州府的北京话，是现代锦州、葫芦岛、秦皇岛几个区县（秦锦片）的正源。秦锦话从锦州府扩张，在卢龙（永平府城）取代昌黎话的时间应该晚于锦州，具体时间不明，可能是19世纪。秦皇岛由于形成市区的时间已经是近代，一开始就是说秦锦话。

18世纪的北京话另有两个分支：顺天府（北京）& 承德府。朝阳、赤峰的建置虽源自承德府，但近代受移民（主要是汴宋官话）影响形成的单元音化“干面子味”跟承德已明显不同。

了解了昌黎话之后，越来越发现，现代东北话虽然音系在17~18世纪被北京话洗掉了，但是词汇却可能有相当大的数量，是从明代辽宁（昌黎话）继承下来了。几个最基本的例子：

A、“没”的两个声调—— mei4来 vs mei2钱；

B、嗯呐，来自上古燕国【诺】（na:k），昌黎话最大特征；

C、唠嗑；；；D、屯里、屯下、老屯、XX屯等等“屯”相关词汇；；

E、扔=leng，这个词原本以为是胶东话影响，现在看来是明代辽宁继承而来。

F、朝鲜朴氏=piao，这个很可能说明，丹东在明代并不说胶东话。

等等等，还有很多很多。

现在觉得，东北话的历史纵深一下就不一样了，

他全面融合了幽州（北京）、平州/营州（卢龙/昌黎）、登州（牟平/蓬莱）的文化厚度，

近代在黑土地上，迎来了空前的爆发。

世界上信息熵最大的语言是汉语吗？的其他答案点击这里

前一个讨论

怎样看待雷军在小米9手机发布会说有了小米以后国产机才越来越好的？

下一个讨论

索尼 2019 年发布的旗舰手机 Xperia 1 的真实体验如何？

世界上信息熵最大的语言是汉语吗？第1页

相关话题

前一个讨论

下一个讨论

相关的话题

世界上信息熵最大的语言是汉语吗？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

世界上信息熵最大的语言是汉语吗？第1页