百科问答小站 logo
百科问答小站 font logo



如何通俗的解释交叉熵与相对熵? 第1页

  

user avatar   xing-xiao-xiao-33 网友的相关建议: 
      

仅从机器学习的角度讨论这个问题。

相对熵(relative entropy)就是KL散度(Kullback–Leibler divergence),用于衡量两个概率分布之间的差异。

对于两个概率分布和 ,其相对熵的计算公式为:

注意:由于 和 在公式中的地位不是相等的,所以.

相对熵的特点,是只有 时,其值为0。若 和 略有差异,其值就会大于0。其证明利用了负对数函数( )是严格凸函数(strictly convex function)的性质。具体可以参考PRML 1.6.1 Relative entropy and mutual information.

相对熵公式的前半部分 就是交叉熵(cross entropy)。

若 是数据的真实概率分布, 是由数据计算得到的概率分布。机器学习的目的就是希望尽可能地逼近甚至等于 ,从而使得相对熵接近最小值0. 由于真实的概率分布是固定的,相对熵公式的后半部分 就成了一个常数。那么相对熵达到最小值的时候,也意味着交叉熵达到了最小值。对 的优化就等效于求交叉熵的最小值。另外,对交叉熵求最小值,也等效于求最大似然估计(maximum likelihood estimation)。具体可以参考Deep Learning 5.5 Maximum Likelihood Estimation.




  

相关话题

  学了那么多数学,为什么还是解决不了实际问题? 
  如果让顶级的数学家来做 2018 考研数学会怎样? 
  正在读数学 Ph.D. 的你对想读数学 Ph.D. 的本科生有什么建议吗? 
  拉格朗日是什么意思? 
  红绿蓝三色是(唯一的)正交基吗? 
  主题模型(topic model)到底还有没有用,该怎么用? 
  如何简单理解贝叶斯决策理论(Bayes Decision Theory)? 
  2021 年你的数学研究或学习有什么收获和感悟? 
  物理系应该最好怎样对待数学? 
  逃离丧尸包围的游戏,你能否逃生? 

前一个讨论
看到你的高考成绩,你想到了什么?
下一个讨论
pytorch dataloader数据加载占用了大部分时间,各位大佬都是怎么解决的?





© 2025-04-15 - tinynew.org. All Rights Reserved.
© 2025-04-15 - tinynew.org. 保留所有权利