百科问答小站 logo
百科问答小站 font logo



如何看待指出 神经网络的训练罪魁祸首是退化一文? 第1页

  

user avatar   sth4nth 网友的相关建议: 
      

我的理解,作者所说的degenerate问题和gradient vanish是两个层面的问题。

gradient vanish说的是只要层数高了,gradient就会vanish,而不是说随着迭代数变多会越来越vanish(当然也可能有这个问题,但是本来不是指这个)。所以gradient vanish随层数增多而变严重的,还没迭代什么事呢。

而作者说的degenerate问题是随着迭代而变严重的。也就是fix住network层数,越迭代就会越degenerate。

所以说这是两个层面的问题,当然都会导致Deep network训练困难。

而其实这个degenerate问题我也不认为是作者发现的新大陆,很多人应该都清楚。直观的理解就是每层神经元变量联合表示了数据的manifold,而这个intrinsic manifold的维数必定比变量数少很多。而你在变量所在的ambient space做优化,所算出的Jacobian的rank肯定也就越来越接近数据manifold的实际维度,也就越来越不full rank,也就是越来越degenerate。这样gradient的方向会越来越不准,会指到manifold外面去。regularization会强行让Jacobian变full rank,但本质上还是接近degenerate,治标不治本,gradient还是不准。

从这个角度理解也能明白degenerate和gradient vanish是两个层面的问题,一个是gradient方向不准,一个是gradient大小变没了。

其实有好的方法能把俩问题一起解决了,方法就是在manifold上优化,也就算natural gradient。natural gradient会贴着manifolds的方向上做优化。只不过要完整计算natural gradient要求Hessian的逆,计算量太大,不实用。而其实batch norm,layer norm都和natural gradient有潜在的关系,可以看作近似natural gradient。我相信这些trick都会缓解degenerate问题。




  

相关话题

  如何证明数据增强(Data Augmentation)有效性? 
  如何看待 Nervana 被 Intel 收购? 
  如何通俗易懂地介绍 Gaussian Process? 
  如何评价Hinton在加拿大多伦多大学关于用“capsule”作为下一代CNN的演讲? 
  机器通过主动学习能为人类生活带来怎样的改变? 
  未来十年,AI 将可能与哪些产业结合应用?产生怎样的价值? 
  对神经网络某一层做了小改进,效果却提升显著,可以发论文吗? 
  魔鬼如何在最短时间内抓住天使? 
  三维重建怎么入门? 
  Evidential deep learning里一般怎么估计多标签分类的Uncertainty? 

前一个讨论
向外星发信息,怎样才能假装自己文明已经很高级的样子?
下一个讨论
你在 GitHub 上看到过哪些有意思的 Issue?





© 2025-05-15 - tinynew.org. All Rights Reserved.
© 2025-05-15 - tinynew.org. 保留所有权利