百科问答小站 logo
百科问答小站 font logo



如何看待指出 神经网络的训练罪魁祸首是退化一文? 第1页

  

user avatar   sth4nth 网友的相关建议: 
      

我的理解,作者所说的degenerate问题和gradient vanish是两个层面的问题。

gradient vanish说的是只要层数高了,gradient就会vanish,而不是说随着迭代数变多会越来越vanish(当然也可能有这个问题,但是本来不是指这个)。所以gradient vanish随层数增多而变严重的,还没迭代什么事呢。

而作者说的degenerate问题是随着迭代而变严重的。也就是fix住network层数,越迭代就会越degenerate。

所以说这是两个层面的问题,当然都会导致Deep network训练困难。

而其实这个degenerate问题我也不认为是作者发现的新大陆,很多人应该都清楚。直观的理解就是每层神经元变量联合表示了数据的manifold,而这个intrinsic manifold的维数必定比变量数少很多。而你在变量所在的ambient space做优化,所算出的Jacobian的rank肯定也就越来越接近数据manifold的实际维度,也就越来越不full rank,也就是越来越degenerate。这样gradient的方向会越来越不准,会指到manifold外面去。regularization会强行让Jacobian变full rank,但本质上还是接近degenerate,治标不治本,gradient还是不准。

从这个角度理解也能明白degenerate和gradient vanish是两个层面的问题,一个是gradient方向不准,一个是gradient大小变没了。

其实有好的方法能把俩问题一起解决了,方法就是在manifold上优化,也就算natural gradient。natural gradient会贴着manifolds的方向上做优化。只不过要完整计算natural gradient要求Hessian的逆,计算量太大,不实用。而其实batch norm,layer norm都和natural gradient有潜在的关系,可以看作近似natural gradient。我相信这些trick都会缓解degenerate问题。




  

相关话题

  百度在深度学习上使用Xilinx FPGA? 
  如何评价小米开源的移动端深度学习框架MACE? 
  CVPR 2018 有什么值得关注的亮点? 
  GAN(对抗生成网络)可以被用于哪些(商业或潜在商业)实际问题? 
  如何评价陈天奇团队新开源的TVM? 
  有什么深度学习数学基础书推荐? 
  为什么nlp没有像cv四小龙一样的创业公司? 
  CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的内部网络结构有什么区别? 
  语音识别中,声学模型与语言模型扮演什么角色?或者说是怎么通过两个模型进行语音识别的? 
  计算机视觉有多少分支? 

前一个讨论
向外星发信息,怎样才能假装自己文明已经很高级的样子?
下一个讨论
你在 GitHub 上看到过哪些有意思的 Issue?





© 2025-04-04 - tinynew.org. All Rights Reserved.
© 2025-04-04 - tinynew.org. 保留所有权利