百科问答小站 logo
百科问答小站 font logo



如何通俗的解释交叉熵与相对熵? 第1页

  

user avatar   xing-xiao-xiao-33 网友的相关建议: 
      

仅从机器学习的角度讨论这个问题。

相对熵(relative entropy)就是KL散度(Kullback–Leibler divergence),用于衡量两个概率分布之间的差异。

对于两个概率分布和 ,其相对熵的计算公式为:

注意:由于 和 在公式中的地位不是相等的,所以.

相对熵的特点,是只有 时,其值为0。若 和 略有差异,其值就会大于0。其证明利用了负对数函数( )是严格凸函数(strictly convex function)的性质。具体可以参考PRML 1.6.1 Relative entropy and mutual information.

相对熵公式的前半部分 就是交叉熵(cross entropy)。

若 是数据的真实概率分布, 是由数据计算得到的概率分布。机器学习的目的就是希望尽可能地逼近甚至等于 ,从而使得相对熵接近最小值0. 由于真实的概率分布是固定的,相对熵公式的后半部分 就成了一个常数。那么相对熵达到最小值的时候,也意味着交叉熵达到了最小值。对 的优化就等效于求交叉熵的最小值。另外,对交叉熵求最小值,也等效于求最大似然估计(maximum likelihood estimation)。具体可以参考Deep Learning 5.5 Maximum Likelihood Estimation.




  

相关话题

  将一部分复变函数、傅里叶变换加入高考数学,一部分哈密顿力学拉格朗日变分法加入高考物理,大家是否赞同? 
  如何证明“若整函数 f(z) 的值均位于右半平面,则f(z)恒为常数”? 
  若 A={x, x∉A},那么 A 是 ∅ 吗? 
  丁同仁常微分方程第二版2.2第五题怎么解? 
  如何评价Google Duplex(打电话AI)在特定领域已经通过了图灵测试? 
  1+0.1+0.01+0.001+0.0001... 一直下去会在实际中到达 2 吗? 
  写深度学习代码是先写model还是dataset还是train呢,有个一般化的顺序吗? 
  是否存在这样一个初等函数:它的三阶导数是其本身,而一、二阶导数不是其本身? 
  我有一个数学猜想,你们能证明吗,下面有关于该问题的详细补充说明? 
  物理学常量(例如光速)把量纲去除(如果有的话)都是有理数还是无理数? 

前一个讨论
看到你的高考成绩,你想到了什么?
下一个讨论
pytorch dataloader数据加载占用了大部分时间,各位大佬都是怎么解决的?





© 2025-06-19 - tinynew.org. All Rights Reserved.
© 2025-06-19 - tinynew.org. 保留所有权利