百科问答小站 logo
百科问答小站 font logo



为什么softmax很少会出现[0.5,0.5]? 第1页

  

user avatar   wang-feng-98-82 网友的相关建议: 
      

因为训练的时候你没有跟网络说什么样的东西应该不确定。

你只给了确定的label,要么是[0,1]要么是[1,0],那网络就只会出接近这两个值的输出。

-----------------分界线------------------

当然这背后是有数学原理的,二分类的softmax其实等价于sigmoid,如果一直给one-hot的标签,在训练集几乎都能分正确的前提下,网络趋向于将feature的norm无限拉长,sigmoid越来越接近0-1的阶跃函数,几乎所有样本的输出就都在接近0和接近1的位置,中间态几乎没有。

注意这里引入了一个假设,即“训练集几乎都能分正确”。如果你的训练集拟合得不好,你会发现输出0.3、0.5之类的样本的机会会大大增加。

-----------------分界线------------------

怎么告诉网络不确定性呢?

有两种方式:一种是soft label,即你直接就给部分样本[0.5, 0.5]的label;一种是noise label,就是你觉得不确定的东西,一会给0的label,一会给1的label。

这两种方式都可以起作用,当然第一种效果更好一些,网络有比较明确的目标,第二种方式在batch training下其实也是有效的,只是看起来比较奇怪。




  

相关话题

  ICLR 2018 有什么值得关注的亮点? 
  语音识别中,声学模型与语言模型扮演什么角色?或者说是怎么通过两个模型进行语音识别的? 
  这一波人工智能泡沫将会怎么破灭? 
  如何学习视频识别技术? 
  用 TensorFlow 可以做什么有意思的事情? 
  CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的内部网络结构有什么区别? 
  如何评价何恺明等 arxiv 新作 Rethinking ImageNet Pre-training? 
  从算法的角度来看,Elsagate 事件暴露出了「自动推荐」的哪些问题,该如何规避? 
  如何评价谷歌提出的 Pix2Seq:将目标检测看成语言建模,效果超过 DETR? 
  人工智能技术会不会最终赶上微积分的历史地位? 

前一个讨论
目前 AI 在疾病的诊断和治疗上,有哪些成功的应用?
下一个讨论
一位合格的博士生需要有哪些条件和素质?





© 2025-06-07 - tinynew.org. All Rights Reserved.
© 2025-06-07 - tinynew.org. 保留所有权利