百科问答小站 logo
百科问答小站 font logo



目前强化学习在控制领域的应用有哪些? 第1页

  

user avatar   zheng-jin-quan-15 网友的相关建议: 
      

介绍几位学者:主要做RL在控制方面应用,尤其是控制理论方面。

  • Frank. L Lewis

得克萨斯大学阿灵顿大学教授,自动控制领域知名专家,针对连续系统的自适应动态规划(ADP)方面做了很多原创性工作,关于RL与ADP方面有不少综述文章。与国内东北大学柴院士那边有不少理论与应用的论文合作。

文献推荐:

[1] Lewis F L, Vrabie D. Reinforcement learning and adaptive dynamic programming for feedback control[J]. IEEE circuits and systems magazine, 2009, 9(3): 32-50. [综述]

[2] Vrabie D, Pastravanu O, Abu-Khalaf M, et al. Adaptive optimal control for continuous-time linear systems based on policy iteration[J]. Automatica, 2009, 45(2): 477-484. [连续时间线性系统,部分模型已知]

[3] Vrabie D, Lewis F. Neural network approach to continuous-time direct adaptive optimal control for partially unknown nonlinear systems[J]. Neural Networks, 2009, 22(3): 237-246. [连续时间非线性系统,部分模型已知]

  • Zhong-ping Jiang

纽约大学教授,小增益理论关键创立者之一。针对连续系统的鲁棒自适应动态规划做了很多研究工作。有一本著作《Robust adaptive dynamic programming》

文献推荐:

[1] Jiang Y, Jiang Z P. Computational adaptive optimal control for continuous-time linear systems with completely unknown dynamics[J]. Automatica, 2012, 48(10): 2699-2704. [连续时间线性系统,无模型]

[2] Jiang Y, Jiang Z P. Robust adaptive dynamic programming with an application to power systems[J]. IEEE Transactions on Neural Networks and Learning Systems, 2013, 24(7): 1150-1156. [鲁棒ADP for 连续线性系统,无模型]

[3] Jiang Y, Jiang Z P. Robust adaptive dynamic programming and feedback stabilization of nonlinear systems[J]. IEEE Transactions on Neural Networks and Learning Systems, 2014, 25(5): 882-893. [鲁棒ADP for 连续非线性系统,无模型]

  • Derong Liu; Qinglai Wei; Huagaung Zhang

国内的学者,中科院、东北大学等,主要针对离散系统的自适应动态规划。出过一本书《Adaptive dynamic programming for control》

文献推荐:

[1] Wang F Y, Zhang H, Liu D. Adaptive dynamic programming: An introduction[J]. IEEE computational intelligence magazine, 2009, 4(2): 39-47. [综述]

[2] Liu D, Wei Q. Policy iteration adaptive dynamic programming algorithm for discrete-time nonlinear systems[J]. IEEE Transactions on Neural Networks and Learning Systems, 2013, 25(3): 621-634. [离散非线性系统]

  • 当然也有很多将RL 中的深度强化学习用在控制方面,大多采用深度神经网络,用在机器人控制等,例如OpenAI公司,这类论文近年来很多,但是理论研究方面较弱。这边就不一一介绍。



  

相关话题

  是否有可能使用人工智能在高原、戈壁和沙漠中进行工业生产? 
  武侠小说都写,废了坏人的武功,让他没办法害人,可万一这个人智力超群,武功没了,他照样害人啊? 
  从零开始学数据分析,什么程度可以找工作,如何计划学习方案? 
  DeepMind 团队中有哪些厉害的人物和技术积累? 
  为什么 AI 发展到今天,围棋能下过李世石、柯洁,仍不能完成帮人类洗衣物、做饭这种简单的事? 
  如何看待70岁老教授花费2年时间让收藏在伯克利的中文古籍善本通过达摩院技术,以数字化方式回归故土? 
  现在互联网公司还有做特征工程的工作吗? 
  KL散度衡量的是两个概率分布的距离吗? 
  为什么有些学数学的看不惯甚至鄙视 Deep Learning? 
  如何评价中国人民大学高瓴人工智能学院教授的薪酬标准? 

前一个讨论
你见过最烂的代码长什么样子?
下一个讨论
如何用matlab寻找二进制字符串中最长的“1”序列?





© 2025-04-26 - tinynew.org. All Rights Reserved.
© 2025-04-26 - tinynew.org. 保留所有权利