百科问答小站 logo
百科问答小站 font logo



为什么nn的较大问题是会陷入局部最优时,不选用凸函数作为激活函数? 第1页

  

user avatar   filestorm 网友的相关建议: 
       @li Eta

答得很好。

关于第一点

为什么陷入局部最优,根本不是NN的问题

貌似并没展开说。我正好得空,补充一下

大家以前认为,deep learning的loss的形状会是布满弹坑的样子:


于是,梯度下降到local minimum如果不是global minimum就出大问题了。




但其实对于deep learning,我们是在一个非常高维的世界里做梯度下降。这时的 local minimum 很难形成,因为局部最小值要求函数在所有维度上都是局部最小。更实际得情况是,函数会落到一个saddle-point上,如下图:



在saddle-point上会有一大片很平坦的平原,让梯度几乎为0,导致无法继续下降。

反倒是local/global minimum的问题,大家发现其实不同的local minimum其实差不多(反正都是over-fitting training data,lol)

推荐阅读Bengio组的这两篇:

On the saddle point problem for non-convex optimization

Identifying and attacking the saddle point problem in high-dimensional non-convex optimization




  

相关话题

  无人驾驶运营维护,自动驾驶运营维护,无人驾驶科技公司落地,逐渐走向现实,落地后的运营维护怎么办? 
  为什么法语的数字表达方式那么奇怪?世界上还有其它主要语种采取类似的数字逻辑吗? 
  初三数学20几分怎么能达到100+? 
  中国的数学研究在世界范围是什么水平?那些领域是领先的,哪些十分落后? 
  机器学习的理论方向 PhD 是否真的会接触那么多现代数学(黎曼几何、代数拓扑之类)? 
  著名数学家、数学教育家齐民友先生逝世,他给你留下哪些印象、有什么样的影响,如何评价他的一生? 
  拥有一个对数学敏感的孩子该如何培养? 
  如果利用人工智能程序找到一个未见过的好听的和弦进行,但在现有乐理上得不到解释,你们会怎样看待? 
  高考数学140的人难道选填压轴都能一眼出答案吗? 
  数论在物理学中有哪些具体应用? 

前一个讨论
in memory computing 存内计算是学术圈自娱自乐还是真有价值?
下一个讨论
现在互联网公司还有做特征工程的工作吗?





© 2025-04-24 - tinynew.org. All Rights Reserved.
© 2025-04-24 - tinynew.org. 保留所有权利