首页

如何看待指出神经网络的训练罪魁祸首是退化一文？第1页

1

sth4nth 网友的相关建议:

我的理解，作者所说的degenerate问题和gradient vanish是两个层面的问题。

gradient vanish说的是只要层数高了，gradient就会vanish，而不是说随着迭代数变多会越来越vanish（当然也可能有这个问题，但是本来不是指这个）。所以gradient vanish随层数增多而变严重的，还没迭代什么事呢。

而作者说的degenerate问题是随着迭代而变严重的。也就是fix住network层数，越迭代就会越degenerate。

所以说这是两个层面的问题，当然都会导致Deep network训练困难。

而其实这个degenerate问题我也不认为是作者发现的新大陆，很多人应该都清楚。直观的理解就是每层神经元变量联合表示了数据的manifold，而这个intrinsic manifold的维数必定比变量数少很多。而你在变量所在的ambient space做优化，所算出的Jacobian的rank肯定也就越来越接近数据manifold的实际维度，也就越来越不full rank，也就是越来越degenerate。这样gradient的方向会越来越不准，会指到manifold外面去。regularization会强行让Jacobian变full rank，但本质上还是接近degenerate，治标不治本，gradient还是不准。

从这个角度理解也能明白degenerate和gradient vanish是两个层面的问题，一个是gradient方向不准，一个是gradient大小变没了。

其实有好的方法能把俩问题一起解决了，方法就是在manifold上优化，也就算natural gradient。natural gradient会贴着manifolds的方向上做优化。只不过要完整计算natural gradient要求Hessian的逆，计算量太大，不实用。而其实batch norm，layer norm都和natural gradient有潜在的关系，可以看作近似natural gradient。我相信这些trick都会缓解degenerate问题。

如何看待指出神经网络的训练罪魁祸首是退化一文？的其他答案点击这里

1

相关话题

  为什么计算注意力机制的时候不加偏置项？
  全连接层的作用是什么？
  TVM 最新发布版本 0.3 有哪些亮点？
  国内外有哪些做小样本学习(Few-Shot Learning)的优秀团队？
  医学生学习机器学习该如何入门？
  为什么Transformer要用LayerNorm？
  Partial Multi-Label Learning是什么？它的发展史又是怎样的？最新的进展如何？
  特征工程中的「归一化」有什么作用？
  深度学习图像处理什么时候用到GPU？
  有没有必要把机器学习算法自己实现一遍？

前一个讨论

向外星发信息，怎样才能假装自己文明已经很高级的样子？

下一个讨论

你在 GitHub 上看到过哪些有意思的 Issue？

相关的话题

  深度学习中有哪些数据增强方法？
  为何感觉“知识蒸馏”这几年没有什么成果？
  深度学习到底是「实验科学」还是「理论科学」？能否称为「算法」？
  什么是主动学习（Active Learning, AL）？
  多任务学习成功的原因是引入了别的数据库还是多任务框架本身呢？
  如何评价 MSRA 视觉组最新提出的 Deformable ConvNets V2？
  如何看待 Google TPU？寒武纪芯片较之有哪些优势与不足？
  请问人工神经网络中的activation function的作用具体是什么？为什么ReLu要好过于tanh和sigmoid function?
  怎么选取训练神经网络时的Batch size?
  当前人工智能特别是深度学习最前沿的研究方向是什么？
  计算商品embedding然后平均得到用户embedding，会不会存在这种问题？
  如何全面理解工程师红利？
  t-sne数据可视化算法的作用是啥？为了降维还是认识数据？
  如何用自然语言处理判断一句话是否符合中文口语习惯？
  为什么机器学习解决网络安全问题总是失败?
  现大二，准备做大学生创新创业项目计划，目前定的方向是深度学习+畜牧业／养殖业，有什么建议给我们吗？
  现大二，准备做大学生创新创业项目计划，目前定的方向是深度学习+畜牧业／养殖业，有什么建议给我们吗？
  NLP文本匹配问题的本质是不是对于要预测的句子，遍历候选句子从训练数据集里寻找最相似的pair？
  现在tensorflow和mxnet很火，是否还有必要学习scikit-learn等框架？
  Deep Learning 的专家如此急缺，它难在何处？
  如何评价何恺明、Ross Girshick组的自监督时空表征学习新作？
  人工智能相关的岗位薪酬状况如何？
  我决定进军期货市场，您有什么建议吗？
  用生成模型做数据增强data augmentation时，如何从合成数据中筛选出质量较好的样本？
  有哪些关于机器学习的真相还鲜为人知？
  研究推荐系统要对NLP很了解吗？
  如何看待人工智能领域的很多专家认为「人工智能将对人类存亡造成威胁」的观点？
  了解/从事机器学习/深度学习系统相关的研究需要什么样的知识结构？
  有哪些深度学习效果不如传统方法的经典案例？
  机器通过主动学习能为人类生活带来怎样的改变？

© 2025-06-26 - tinynew.org. All Rights Reserved.
© 2025-06-26 - tinynew.org. 保留所有权利