百科问答小站 logo
百科问答小站 font logo



一段文字的包含的信息量能不能衡量? 第1页

  

user avatar   jianchichen 网友的相关建议: 
      

信息量的严格数学定义就是 log(1/p),其中p是该文本在所有可能出现的文本中的概率,简单的说就是文本越罕见,信息量就越大。打个比方说,“我爷爷活了九十三”,和“我昨天吃了一泡屎”比起来,虽然字数相同,但是后者的信息量无疑大很多。

你可以把信息量简单想象为在你知道全空间真实分布的情况下,对某个样本进行霍夫曼编码压缩后所需的比特数(此处的霍夫曼编码未必是逐字节的)。当然,我们是不可能知道所有文本的概率分布的,所以要靠段落、句子、短语、词的分布来近似。(log(1/(p1*p2))=log(1/p1)+log(1/p2))

比如虽然大多数人的名字是三个字,可是有个人的名字,却可以压缩成"他",信息量就比较小。




  

相关话题

  极坐标表示 5000 到 50000 之间的素数为什么会形成一条螺旋线? 
  如何理解马尔可夫链? 
  经济学中Ed=-(△Q/△P)/(P/Q)如何推导,麻烦有懂得大神给个解答,最好详细一点。? 
  现代理论物理的新成果中,有没有因为使用不严格的数学最后被证明因此导致错误结果的案例? 
  在一个现实中的数轴上可以找出无理数吗? 
  同时掷三枚硬币,落地后出现三阳、三阴、两阳一阴、两阴一阳的概率相同吗? 
  若 A={x, x∉A},那么 A 是 ∅ 吗? 
  C语言指针难吗?如何看待数学大v认为指针比范畴论还难? 
  如何从数学角度证明魔方复原存在必可解策略? 
  泊松分布和正态分布有什么内在联系? 

前一个讨论
一种菜的学名?
下一个讨论
为什么有些人觉得死宅恶心?





© 2025-04-03 - tinynew.org. All Rights Reserved.
© 2025-04-03 - tinynew.org. 保留所有权利