百科问答小站 logo
百科问答小站 font logo



一段文字的包含的信息量能不能衡量? 第1页

  

user avatar   jianchichen 网友的相关建议: 
      

信息量的严格数学定义就是 log(1/p),其中p是该文本在所有可能出现的文本中的概率,简单的说就是文本越罕见,信息量就越大。打个比方说,“我爷爷活了九十三”,和“我昨天吃了一泡屎”比起来,虽然字数相同,但是后者的信息量无疑大很多。

你可以把信息量简单想象为在你知道全空间真实分布的情况下,对某个样本进行霍夫曼编码压缩后所需的比特数(此处的霍夫曼编码未必是逐字节的)。当然,我们是不可能知道所有文本的概率分布的,所以要靠段落、句子、短语、词的分布来近似。(log(1/(p1*p2))=log(1/p1)+log(1/p2))

比如虽然大多数人的名字是三个字,可是有个人的名字,却可以压缩成"他",信息量就比较小。




  

相关话题

  如何解决这个数学问题? 
  如何证明集合[0, 1] × [0, 1]与集合[0, 1]等势(即存在双射)? 
  家人们,帮我看看这个极限? 
  俄罗斯数学物理那么发达有什么原因? 
  为什么文科生要学数学,高中数学有什么用? 
  数学中的概率是有漏洞的吗?我随机在R中取一个数,取到1的概率为0,但也是有可能取到的,这是怎么回事? 
  如何证明数学定理全宇宙通用? 
  世界上存在周长为整数,半径也是整数的圆吗? 
  a,b,c,d 是正实数,且 a²+b²+c²+d²+abcd=5,怎么证明 a+b+c+d≤4? 
  钱学森当年在中科大的考题之求解:从地球上发射一枚火箭,绕过太阳,再返回到地球上来,请列出方程、求出解? 

前一个讨论
一种菜的学名?
下一个讨论
为什么有些人觉得死宅恶心?





© 2024-09-19 - tinynew.org. All Rights Reserved.
© 2024-09-19 - tinynew.org. 保留所有权利