百科问答小站 logo
百科问答小站 font logo



机器学习中的优化理论,需要学习哪些资料才能看懂? 第1页

  

user avatar   zhu-jian-zhi-neng-emotibot 网友的相关建议: 
      

(这是张动图,戳链接查看:myexception.cn/img/2016

各位前面已经总结了一些经典的优化方面的教科书——经典的线性规划到凸优化这些是必修的,也是理解从最小二乘到SVM到贝叶斯推断这些经典算法的基础,当然是必读的,这里不再赘述。

我们特别提一提基于梯度下降的方法,或者说,训练神经网络的方法

• 首先是这篇Overview: An overview of gradient descent optimization algorithms(arxiv.org/pdf/1609.0474 或者sebastianruder.com/opti),这篇文章介绍了现代神经网络训练的主要方法:Gradient Descent, Stochastic Gradient Descent, Mini-batch; SGD+Momentum; SGD+ Nesterov Momentum; Adagrad; Adadelta; RMSprop; Adam. 看完以后应该可以在调参过程中选择优化方法的时候多一些信心。

• 深度神经网络倾向于使用梯度下降的方法的一个重要原因在于可以比较好的应用于反向传播。而反向传播是整个深度学习的基石。在这个方面,最经典的莫过于Hinton在Nature上的这篇Learning representations by back-propagating errors: iro.umontreal.ca/~vince

• 说到详细分析反向传播的文章,就要数LeCun杨立昆老师的这篇Efficient Backprop了:yann.lecun.com/exdb/pub ,这篇文章详尽地介绍了Backprop的一些tricks,并分析了采用梯度下降(一阶方法)和二阶方法(Hessian-based)的收敛性质。这篇文章被Neural Networks- Tricks of the Trade一书收录。

• Bengio的Practical Recommendations for Gradient-Based Training of Deep Architectures (arxiv.org/pdf/1206.5533) 是一篇更加现代的介绍基于梯度的神经网络训练(炼丹)方法(Tricks)的文章,同样被收录进Neural Networks- Tricks of the Trade。

• CNN的反向传播推导(当然,在现代的深度学习平台上因为自动梯度的存在,你基本上不需要知道这些——但是偶尔手动推导一下也不坏,是吧)——还是看杨立昆老师的这篇:Backpropagation applied to handwritten zip code recognition (yann.lecun.org/exdb/pub

• LSTM的反向传播推导:这个不推荐看Hochreiter/Jurgen Schmidhuber 1997的那一篇了,因为这一篇当中的LSTM没有forget gate!比较好的一篇介绍在:LSTM: A Search Space Odyssey (arxiv.org/pdf/1503.0406)

• RNN的训练:基本上,RNN的训练是非常困难的,问题主要在于梯度消失/梯度爆炸,这个问题可以看Bengio的这篇分析:Learning Long-Term Dependencies with Gradient Descent is Difficult. (www-dsi.ing.unifi.it/~p)。比较有意思的是(可能训练RNN确实太难),Bengio在2012年带着Mikolov又做了一篇On the difficulty of training Recurrent Neural Networks (arxiv.org/pdf/1211.5063)

好了,读到这里相信你最少对于神经网络的优化方法有了一个初步的理解——不过在这里特别提醒,基于梯度下降的方法绝对不是唯一的训练方法,对于非凸优化咱们虽然很难有效地寻找全局最优点,但还是有些别的办法的,比如说,基因算法。这个坑就留着等大家来填吧。

本回答来自Emotibot机器学习科学家马永宁。




  

相关话题

  三门问题(蒙提霍尔悖论)变种,如果主持人不知道哪个门是汽车随便蒙门打开正好是羊这时观众还需要换门吗? 
  相比于时下流行的机器学习方法(联接主义),传统的人工智能方法(符号主义)有什么独一无二的优势? 
  GAN的生成器是怎么产生图片的? 
  测试集在构造的时候需要人为控制其中应该正确的和应该错误的数据比例吗? 
  如何看待2016年3月柯洁表示 AlphaGo「赢不了我」? 
  为什么dropout正则化经常在视觉方面使用而不是其他? 
  如何评价 UCLA 朱松纯教授近日访谈中对深度学习的批评? 
  谈谈机器学习在网络安全领域的局限性,以及是否乐观? 
  机器全面代替人工劳动力的那一天,你能如何生存下去? 
  如何看待 NIPS 2018 submission达到近 5000 篇? 

前一个讨论
机器学习该怎么入门?
下一个讨论
如何学好高中物理?





© 2025-01-31 - tinynew.org. All Rights Reserved.
© 2025-01-31 - tinynew.org. 保留所有权利