搬运一下大数学家柯尔莫哥洛夫对香农信息论思想之美的反应和评说。他也有这方面的工作:柯尔莫哥洛夫复杂性。我还记得自己上信息论课时的最后一讲就是Kolmogorov complexity。
两位大神还见过面,但语言不通。
从香农的工作一发表,苏联数学巨人柯尔莫哥洛夫就高度评价香农及其理论,1980年代他回忆时说:
“香农对纯数学的贡献并没有立即得到认可。我现在可以回想起,即使在1954年阿姆斯特丹国际数学大会时,我在美国的概率论同行对我所表现的对香农工作的强烈兴趣似乎也很怀疑,因为他们认为这仅是技术本身,而非数学。如今,这种错误的观点已不值得批评。
……
“虽然香农没有为复杂情形提供严格的数学依据,而是将其全部留给了他的追随者,但他的数学直觉是非常准确的。”
因此,信息理论显然需要数学基础。辛钦 [97,98]朝此方向迈出了第一步,他证明了离散情形的信息论基本定理;随后柯尔莫哥洛夫和他的学生盖尔范德、Yaglom(请参阅“关于信息量的一般定义 (On a general definition of the amount of information) ” [K267],[[A-2]和“连续分布的信息量和熵(The amount of information and entropy for continuous distributions)“[K276],[[A-4])对一般情形,给出了高斯假设下信息量的一般性质,并证明了以给定精度传输消息的编码定理。
1956年,柯尔莫哥洛夫向致力于工业自动化科学问题的苏联科学院部门报告了他的“信息传输理论(The theory of transmission of information)” [K272],[A-3]。该报告包含了信息论的基本概念,并阐明了其适用范围。
所有这些工作“树立了遵循严格的数学标准来展示信息论结果的传统,这是由两类研究人员(数学家和工程师)细心留意到的。”
基于对香农信息论思想的独到理解,柯尔莫哥洛夫将之与他的近似理论和算法理论相结合——这些工作可以追溯到1930年代。现在让我们进一步讨论。
香农用“熵” 来度量离散消息 (假定取离散值 的概率为 )的不确定性:
香农也定义了事件对象 相对 的(互)信息 ,在离散随件变量的情况下,其为
,
这里 。
当存在联合概率 和边缘概率 和 时,互信息表达式为
在连续消息的情况下,所有对香农熵自然类比的相似表达都将导致无穷大的值。于此,辛钦 [97,98]反复强调,对于任意消息,基本概念是一个对象 相对 的互信息 ,而不是熵。
从这个想法开始,柯尔莫哥洛夫将随机对象 的 熵 定义为
在满足以下条件的所有对随机变量(£,7)上取最小值(在 的固定分布 下),这些变量满足其联合分布 属于给定类 的限制,具体取决于参数 (例如,
香农最初将量 看作“消息产生率(rate of message generation)”。柯尔莫哥洛夫在[K273],[I [A-3]中写道:
“尽管选择新名称不会改变问题的本质,我还是冒险这样去做了,因为它( 熵)强调了自身的普适性以及它与通常的熵概念的更深层次的相似性。我尤其注意到大家对 时, 熵的渐近行为的研究兴趣。先前研究的仅是可能规律的极特殊情形。因而,我的论文[K266]尽管使用了不同的术语,但可能能为未来的研究提供启发。”
美在于它的无处不在吧,在微观与宏观的变化之上,它都能有为伍之地,如同热力学三大定律那样。
而变化的无处不在,又被热力学三大定律给证明。
现在最大的跨越之墙就在时间如何解读了。
最令自己觉得美的地方:信息只产生在变化之时。
是不是非常像太极图或者克莱因瓶?
以为自己懂了,当你去触碰它的时候,发现似懂非懂。
这是不是很像测不准原理?
这是不是很像薛定谔的猫?
这是不是很像当下流行的知行合一?
在科学与哲学领域,你都能拿它来解释一通那些对象们。
我觉得美在简洁,小小一个公式连接了三个重要的物理量,令人赏心悦目~