百科问答小站 logo
百科问答小站 font logo



机器学习中的优化理论,需要学习哪些资料才能看懂? 第1页

  

user avatar   zhu-jian-zhi-neng-emotibot 网友的相关建议: 
      

(这是张动图,戳链接查看:myexception.cn/img/2016

各位前面已经总结了一些经典的优化方面的教科书——经典的线性规划到凸优化这些是必修的,也是理解从最小二乘到SVM到贝叶斯推断这些经典算法的基础,当然是必读的,这里不再赘述。

我们特别提一提基于梯度下降的方法,或者说,训练神经网络的方法

• 首先是这篇Overview: An overview of gradient descent optimization algorithms(arxiv.org/pdf/1609.0474 或者sebastianruder.com/opti),这篇文章介绍了现代神经网络训练的主要方法:Gradient Descent, Stochastic Gradient Descent, Mini-batch; SGD+Momentum; SGD+ Nesterov Momentum; Adagrad; Adadelta; RMSprop; Adam. 看完以后应该可以在调参过程中选择优化方法的时候多一些信心。

• 深度神经网络倾向于使用梯度下降的方法的一个重要原因在于可以比较好的应用于反向传播。而反向传播是整个深度学习的基石。在这个方面,最经典的莫过于Hinton在Nature上的这篇Learning representations by back-propagating errors: iro.umontreal.ca/~vince

• 说到详细分析反向传播的文章,就要数LeCun杨立昆老师的这篇Efficient Backprop了:yann.lecun.com/exdb/pub ,这篇文章详尽地介绍了Backprop的一些tricks,并分析了采用梯度下降(一阶方法)和二阶方法(Hessian-based)的收敛性质。这篇文章被Neural Networks- Tricks of the Trade一书收录。

• Bengio的Practical Recommendations for Gradient-Based Training of Deep Architectures (arxiv.org/pdf/1206.5533) 是一篇更加现代的介绍基于梯度的神经网络训练(炼丹)方法(Tricks)的文章,同样被收录进Neural Networks- Tricks of the Trade。

• CNN的反向传播推导(当然,在现代的深度学习平台上因为自动梯度的存在,你基本上不需要知道这些——但是偶尔手动推导一下也不坏,是吧)——还是看杨立昆老师的这篇:Backpropagation applied to handwritten zip code recognition (yann.lecun.org/exdb/pub

• LSTM的反向传播推导:这个不推荐看Hochreiter/Jurgen Schmidhuber 1997的那一篇了,因为这一篇当中的LSTM没有forget gate!比较好的一篇介绍在:LSTM: A Search Space Odyssey (arxiv.org/pdf/1503.0406)

• RNN的训练:基本上,RNN的训练是非常困难的,问题主要在于梯度消失/梯度爆炸,这个问题可以看Bengio的这篇分析:Learning Long-Term Dependencies with Gradient Descent is Difficult. (www-dsi.ing.unifi.it/~p)。比较有意思的是(可能训练RNN确实太难),Bengio在2012年带着Mikolov又做了一篇On the difficulty of training Recurrent Neural Networks (arxiv.org/pdf/1211.5063)

好了,读到这里相信你最少对于神经网络的优化方法有了一个初步的理解——不过在这里特别提醒,基于梯度下降的方法绝对不是唯一的训练方法,对于非凸优化咱们虽然很难有效地寻找全局最优点,但还是有些别的办法的,比如说,基因算法。这个坑就留着等大家来填吧。

本回答来自Emotibot机器学习科学家马永宁。




  

相关话题

  什么是博弈机器学习? 
  主动学习(Active learning)算法的原理是什么,有哪些比较具体的应用? 
  编写基于机器学习的程序,有哪些编写和调试的经验和窍门? 
  现在的人工智能是否走上了数学的极端? 
  迁移学习与fine-tuning有什么区别? 
  怎样衡量一个机器学习工程师对算法的掌握程度? 
  为何中国人迷恋吴恩达的机器学习课? 
  如何看待AI伦理科学家Timnit Gebru在邮件控诉谷歌缺乏种族多样性后被Jeff Dean炒掉? 
  支持向量机(SVM)是什么意思? 
  线性空间的对偶空间和优化里的拉格朗日对偶有什么关系? 

前一个讨论
机器学习该怎么入门?
下一个讨论
如何学好高中物理?





© 2025-03-04 - tinynew.org. All Rights Reserved.
© 2025-03-04 - tinynew.org. 保留所有权利