百科问答小站 logo
百科问答小站 font logo



如何看待指出 神经网络的训练罪魁祸首是退化一文? 第1页

  

user avatar   sth4nth 网友的相关建议: 
      

我的理解,作者所说的degenerate问题和gradient vanish是两个层面的问题。

gradient vanish说的是只要层数高了,gradient就会vanish,而不是说随着迭代数变多会越来越vanish(当然也可能有这个问题,但是本来不是指这个)。所以gradient vanish随层数增多而变严重的,还没迭代什么事呢。

而作者说的degenerate问题是随着迭代而变严重的。也就是fix住network层数,越迭代就会越degenerate。

所以说这是两个层面的问题,当然都会导致Deep network训练困难。

而其实这个degenerate问题我也不认为是作者发现的新大陆,很多人应该都清楚。直观的理解就是每层神经元变量联合表示了数据的manifold,而这个intrinsic manifold的维数必定比变量数少很多。而你在变量所在的ambient space做优化,所算出的Jacobian的rank肯定也就越来越接近数据manifold的实际维度,也就越来越不full rank,也就是越来越degenerate。这样gradient的方向会越来越不准,会指到manifold外面去。regularization会强行让Jacobian变full rank,但本质上还是接近degenerate,治标不治本,gradient还是不准。

从这个角度理解也能明白degenerate和gradient vanish是两个层面的问题,一个是gradient方向不准,一个是gradient大小变没了。

其实有好的方法能把俩问题一起解决了,方法就是在manifold上优化,也就算natural gradient。natural gradient会贴着manifolds的方向上做优化。只不过要完整计算natural gradient要求Hessian的逆,计算量太大,不实用。而其实batch norm,layer norm都和natural gradient有潜在的关系,可以看作近似natural gradient。我相信这些trick都会缓解degenerate问题。




  

相关话题

  神经网络激活函数的作用和原理?有没有形象解释? 
  如何用自然语言处理判断一句话是否符合中文口语习惯? 
  学生网络用知识蒸馏损失去逼近教师网络,如何提高学生网络的准确率? 
  为什么 larger batch size 对对比学习的影响比对监督学习的影响要大? 
  在机器学习模型的训练期间,大概几十分钟到几小时不等,大家都会在等实验的时候做什么? 
  如何评价B站UP主未明子宣称“知乎搞机器学习模拟拉康的程序员”具备“头脑上的悲剧”? 
  god bless us 为什么百度翻译是辛巴? 
  有人说「真正的人工智能至少还要几百年才能实现」,真的是这样吗? 
  如何看待Hinton的论文《Dynamic Routing Between Capsules》? 
  如何评价《Science》封面文章《通过概率规划归纳的人类层次概念学习》? 

前一个讨论
向外星发信息,怎样才能假装自己文明已经很高级的样子?
下一个讨论
你在 GitHub 上看到过哪些有意思的 Issue?





© 2025-06-05 - tinynew.org. All Rights Reserved.
© 2025-06-05 - tinynew.org. 保留所有权利