首页

如何看待指出神经网络的训练罪魁祸首是退化一文？第1页

1

sth4nth 网友的相关建议:

我的理解，作者所说的degenerate问题和gradient vanish是两个层面的问题。

gradient vanish说的是只要层数高了，gradient就会vanish，而不是说随着迭代数变多会越来越vanish（当然也可能有这个问题，但是本来不是指这个）。所以gradient vanish随层数增多而变严重的，还没迭代什么事呢。

而作者说的degenerate问题是随着迭代而变严重的。也就是fix住network层数，越迭代就会越degenerate。

所以说这是两个层面的问题，当然都会导致Deep network训练困难。

而其实这个degenerate问题我也不认为是作者发现的新大陆，很多人应该都清楚。直观的理解就是每层神经元变量联合表示了数据的manifold，而这个intrinsic manifold的维数必定比变量数少很多。而你在变量所在的ambient space做优化，所算出的Jacobian的rank肯定也就越来越接近数据manifold的实际维度，也就越来越不full rank，也就是越来越degenerate。这样gradient的方向会越来越不准，会指到manifold外面去。regularization会强行让Jacobian变full rank，但本质上还是接近degenerate，治标不治本，gradient还是不准。

从这个角度理解也能明白degenerate和gradient vanish是两个层面的问题，一个是gradient方向不准，一个是gradient大小变没了。

其实有好的方法能把俩问题一起解决了，方法就是在manifold上优化，也就算natural gradient。natural gradient会贴着manifolds的方向上做优化。只不过要完整计算natural gradient要求Hessian的逆，计算量太大，不实用。而其实batch norm，layer norm都和natural gradient有潜在的关系，可以看作近似natural gradient。我相信这些trick都会缓解degenerate问题。

如何看待指出神经网络的训练罪魁祸首是退化一文？的其他答案点击这里

1

相关话题

  在机器学习模型的训练期间，大概几十分钟到几小时不等，大家都会在等实验的时候做什么？
  如何理解今年发表在JMLR上随机森林算法SPORF？
  如何用自然语言处理判断一句话是否符合中文口语习惯？
  有哪些定理在高维情况下与三维情况下培养出来的直觉不符？
  LSTM如何来避免梯度弥散和梯度爆炸？
  如何看待End-to-End Object Detection with Transformers？
  国内 top2 高校研一在读，为什么感觉深度学习越学越懵?
  土木和机器学习/深度学习/算法的交叉岗位在哪里找呀？在哪找都找不到招聘公司?
  AI（或者说神经网络/深度学习）能够实现科学（尤其是物理学）研究中提出假设这一步嘛？
  batchsize=1时可以用BN吗?

前一个讨论

向外星发信息，怎样才能假装自己文明已经很高级的样子？

下一个讨论

你在 GitHub 上看到过哪些有意思的 Issue？

相关的话题

  为什么计算机科学专业背景的人喜欢黑机器学习？
  谈谈机器学习在网络安全领域的局限性，以及是否乐观？
  如何证明对任意给定的正数e，存在M上的矩阵范数||A||，满足不等式||A||<=谱半径+e?
  如何评价 7 月 31 日一流科技开源的深度学习框架 OneFlow？
  AI在网络安全领域（尤其是威胁检测领域），有什么好的应用场景？
  卷积神经网络如果将池化层去除，与神经网络的区别还大么？
  如何评价 DeepMind 新提出的关系网络（Relation Network）？
  如何看待最近一段时间旷视科技Face++、阿里、小米、京东、科大讯飞和地平线等相继在南京建立研发中心？
  李航的统计学习方法，吴恩达的视频，关于机器学习的东西都看不懂是怎么回事？
  为什么学习深度学习感觉无法入门？
  如何用机器学习判断《溪岸图》是否董源真迹？
  消融实验是什么？
  神经网络中 warmup 策略为什么有效；有什么理论解释么？
  人是如何做黑盒优化的？
  如何看待比 iPad 还大的史上最大芯片问世？功耗比电磁炉还高有什么用？
  卷积神经网络如果将池化层去除，与神经网络的区别还大么？
  国内外有哪些做小样本学习(Few-Shot Learning)的优秀团队？
  为什么中文 NLP 数据集这么少？
  为什么有的论文放出训练好的模型和测试脚本，但不开源训练代码？
  什么是机器学习？
  如何理解Inductive bias？
  word2vec 相比之前的 Word Embedding 方法好在什么地方？
  深度学习的多个loss如何平衡？
  Dirichlet Processes 是一个什么样的随机过程？
  神经网络的损失函数为什么是非凸的?
  既然使用神经网络也可以解决分类问题，那SVM、决策树这些算法还有什么意义呢？
  神经网络为什么可以（理论上）拟合任何函数？
  只有正样本和未标签数据的机器学习怎么做？
  BERT模型可以使用无监督的方法做文本相似度任务吗？
  怎样计算两个服从高斯分布的向量乘积的期望？

© 2025-06-07 - tinynew.org. All Rights Reserved.
© 2025-06-07 - tinynew.org. 保留所有权利