百科问答小站 logo
百科问答小站 font logo



目前强化学习在控制领域的应用有哪些? 第1页

  

user avatar   zheng-jin-quan-15 网友的相关建议: 
      

介绍几位学者:主要做RL在控制方面应用,尤其是控制理论方面。

  • Frank. L Lewis

得克萨斯大学阿灵顿大学教授,自动控制领域知名专家,针对连续系统的自适应动态规划(ADP)方面做了很多原创性工作,关于RL与ADP方面有不少综述文章。与国内东北大学柴院士那边有不少理论与应用的论文合作。

文献推荐:

[1] Lewis F L, Vrabie D. Reinforcement learning and adaptive dynamic programming for feedback control[J]. IEEE circuits and systems magazine, 2009, 9(3): 32-50. [综述]

[2] Vrabie D, Pastravanu O, Abu-Khalaf M, et al. Adaptive optimal control for continuous-time linear systems based on policy iteration[J]. Automatica, 2009, 45(2): 477-484. [连续时间线性系统,部分模型已知]

[3] Vrabie D, Lewis F. Neural network approach to continuous-time direct adaptive optimal control for partially unknown nonlinear systems[J]. Neural Networks, 2009, 22(3): 237-246. [连续时间非线性系统,部分模型已知]

  • Zhong-ping Jiang

纽约大学教授,小增益理论关键创立者之一。针对连续系统的鲁棒自适应动态规划做了很多研究工作。有一本著作《Robust adaptive dynamic programming》

文献推荐:

[1] Jiang Y, Jiang Z P. Computational adaptive optimal control for continuous-time linear systems with completely unknown dynamics[J]. Automatica, 2012, 48(10): 2699-2704. [连续时间线性系统,无模型]

[2] Jiang Y, Jiang Z P. Robust adaptive dynamic programming with an application to power systems[J]. IEEE Transactions on Neural Networks and Learning Systems, 2013, 24(7): 1150-1156. [鲁棒ADP for 连续线性系统,无模型]

[3] Jiang Y, Jiang Z P. Robust adaptive dynamic programming and feedback stabilization of nonlinear systems[J]. IEEE Transactions on Neural Networks and Learning Systems, 2014, 25(5): 882-893. [鲁棒ADP for 连续非线性系统,无模型]

  • Derong Liu; Qinglai Wei; Huagaung Zhang

国内的学者,中科院、东北大学等,主要针对离散系统的自适应动态规划。出过一本书《Adaptive dynamic programming for control》

文献推荐:

[1] Wang F Y, Zhang H, Liu D. Adaptive dynamic programming: An introduction[J]. IEEE computational intelligence magazine, 2009, 4(2): 39-47. [综述]

[2] Liu D, Wei Q. Policy iteration adaptive dynamic programming algorithm for discrete-time nonlinear systems[J]. IEEE Transactions on Neural Networks and Learning Systems, 2013, 25(3): 621-634. [离散非线性系统]

  • 当然也有很多将RL 中的深度强化学习用在控制方面,大多采用深度神经网络,用在机器人控制等,例如OpenAI公司,这类论文近年来很多,但是理论研究方面较弱。这边就不一一介绍。



  

相关话题

  Uber 无人车出车祸,全球第一起自动驾驶致其死亡的不幸事件发生,反映了哪些问题?会有何影响? 
  如何看待 2021 年图灵奖授予美国计算机科学家 Jack J. Dongarra? 
  人工智能趋势下,孩子学习编程有哪些意义,对未来发展有好处吗? 
  如何看待 2021 年图灵奖授予美国计算机科学家 Jack J. Dongarra? 
  到了 2022 年,人工智能有哪些真正可落地的应用? 
  机器学习里的 kernel 是指什么? 
  如何看待诈骗分子 PS 环球影城票务门面上传地图被 AI 发现?AI 技术在反诈骗上有哪些应用和进展? 
  想问下专业人士 OpenCv会被深度学习进一步取代吗进一步取代吗? 
  为什么交叉熵(cross-entropy)可以用于计算代价? 
  如何评价沐神他们写的《动手学深度学习》这本书? 

前一个讨论
你见过最烂的代码长什么样子?
下一个讨论
如何用matlab寻找二进制字符串中最长的“1”序列?





© 2025-01-31 - tinynew.org. All Rights Reserved.
© 2025-01-31 - tinynew.org. 保留所有权利