百科问答小站 logo
百科问答小站 font logo



为什么交叉熵(cross-entropy)可以用于计算代价? 第1页

  

user avatar   fffar 网友的相关建议: 
      

一个函数,如果是非负的,且当predict与label越接近,函数值越小,那么该函数就可以作为代价函数。

是标签label, 是模型的预测结果。

交叉熵损失的形式是:

事实上,把log去掉,或者换成exp,都能作为代价函数。

因为这类公式的背后原理都是“排序不等式”。

排序不等式指的是:

当 ,

,

有,

其中是的一个置换。

简而言之,就是顺序和≥乱序和≥倒序和。大的数和大的数配对相乘,小的数和小的数配对相乘,这样的顺序和是最大的。

交叉熵损失函数越小,意味着预测与真实标签越接近。此时应该越大。根据排序不等式,对于任何一个,当比较大时,也应该比较大,反之同理。这是符合直觉的,当某一个类的真实label很大时,预测分数也应该比较高,这才能保证损失函数较小。

根据排序不等式的思想,我们可以对交叉熵进行魔改。

原始版本:

内积版本:

协方差版本:

和 分别是p和q的均值

如果再除以p和q的标准差,那么可以得到相关系数版本(或余弦距离版本)。

指数爆炸版本:

双重否定版本:

禁止套娃版本:


user avatar   ling-jian-94 网友的相关建议: 
      

交叉熵这东西你如果理解为两个概率分布会发现它就是nonsense,你得把对数里面那个分布理解为真实的随机变量分布,而将对数外面那个理解为观察到的频率。然后你就会发现它就是最最原始的MLE(最大似然估计)套了个时髦的壳而已。

比如说现在有一个真实分布为 的随机变量,我们对它进行了N次独立同分布实验,对于每个可能的结果x观察到的次数为 ,那么它的似然值就可以写成

很好理解对吧,乘法公式,把每次实验的概率乘起来,然后合并相同的项写成幂次。这是个乘积的形式,取个对数可以得到求和的形式:

这个式子有两个缺点,第一它是个负数,第二它的数值跟样本数有关,样本越多数值越小,因此除以一下总的样本数归一化,再取个相反数,然后改用频率表示:

这就齐活了。

因此可以看出,交叉熵最小实质上就是似然值最大。我们可以证明,在给定 的情况下,使交叉熵最小的分布P一定有 ,只需要用拉格朗日乘子法就可以:

求偏导得到

即 和 成比例,再根据归一化条件得到

因此在有模型约束的条件下求交叉熵最小值,也就是让模型输出的分布尽量能接近训练数据的分布。




  

相关话题

  人工智能相关的岗位薪酬状况如何? 
  GPT-3 到底花了多少钱?为什么有的网站显示 1200 万美元,有的显示 460 万美元呢? 
  数据挖掘、机器学习、自然语言处理这三者是什么关系?这几个怎么入门啊? 
  你所在的研究领域里,有哪些工作的结果虽然不是造假,但是是精挑细选出来的? 
  最数学的计算机科学方向有哪些? 
  为什么最近几年 FPGA 变得越发受大家重视了? 
  如何评价中国人民大学高瓴人工智能学院教授的薪酬标准? 
  自动驾驶汽车在危险情况下可以不计后果地保护自己的主人吗? 
  人工智能中的符号主义为什么又叫心理学派? 
  什么叫做泛函空间的大数定律? 

前一个讨论
让你感到有趣的语言现象有哪些?
下一个讨论
如何写好 Git commit log?





© 2024-09-19 - tinynew.org. All Rights Reserved.
© 2024-09-19 - tinynew.org. 保留所有权利