百科问答小站 logo
百科问答小站 font logo



目前强化学习在控制领域的应用有哪些? 第1页

  

user avatar   zheng-jin-quan-15 网友的相关建议: 
      

介绍几位学者:主要做RL在控制方面应用,尤其是控制理论方面。

  • Frank. L Lewis

得克萨斯大学阿灵顿大学教授,自动控制领域知名专家,针对连续系统的自适应动态规划(ADP)方面做了很多原创性工作,关于RL与ADP方面有不少综述文章。与国内东北大学柴院士那边有不少理论与应用的论文合作。

文献推荐:

[1] Lewis F L, Vrabie D. Reinforcement learning and adaptive dynamic programming for feedback control[J]. IEEE circuits and systems magazine, 2009, 9(3): 32-50. [综述]

[2] Vrabie D, Pastravanu O, Abu-Khalaf M, et al. Adaptive optimal control for continuous-time linear systems based on policy iteration[J]. Automatica, 2009, 45(2): 477-484. [连续时间线性系统,部分模型已知]

[3] Vrabie D, Lewis F. Neural network approach to continuous-time direct adaptive optimal control for partially unknown nonlinear systems[J]. Neural Networks, 2009, 22(3): 237-246. [连续时间非线性系统,部分模型已知]

  • Zhong-ping Jiang

纽约大学教授,小增益理论关键创立者之一。针对连续系统的鲁棒自适应动态规划做了很多研究工作。有一本著作《Robust adaptive dynamic programming》

文献推荐:

[1] Jiang Y, Jiang Z P. Computational adaptive optimal control for continuous-time linear systems with completely unknown dynamics[J]. Automatica, 2012, 48(10): 2699-2704. [连续时间线性系统,无模型]

[2] Jiang Y, Jiang Z P. Robust adaptive dynamic programming with an application to power systems[J]. IEEE Transactions on Neural Networks and Learning Systems, 2013, 24(7): 1150-1156. [鲁棒ADP for 连续线性系统,无模型]

[3] Jiang Y, Jiang Z P. Robust adaptive dynamic programming and feedback stabilization of nonlinear systems[J]. IEEE Transactions on Neural Networks and Learning Systems, 2014, 25(5): 882-893. [鲁棒ADP for 连续非线性系统,无模型]

  • Derong Liu; Qinglai Wei; Huagaung Zhang

国内的学者,中科院、东北大学等,主要针对离散系统的自适应动态规划。出过一本书《Adaptive dynamic programming for control》

文献推荐:

[1] Wang F Y, Zhang H, Liu D. Adaptive dynamic programming: An introduction[J]. IEEE computational intelligence magazine, 2009, 4(2): 39-47. [综述]

[2] Liu D, Wei Q. Policy iteration adaptive dynamic programming algorithm for discrete-time nonlinear systems[J]. IEEE Transactions on Neural Networks and Learning Systems, 2013, 25(3): 621-634. [离散非线性系统]

  • 当然也有很多将RL 中的深度强化学习用在控制方面,大多采用深度神经网络,用在机器人控制等,例如OpenAI公司,这类论文近年来很多,但是理论研究方面较弱。这边就不一一介绍。



  

相关话题

  如何看待 Uber 发生全球首例自动驾驶致死事件? 
  人类创造的最精巧的机器与人类本身的差距有多大? 
  究竟什么是损失函数 loss function? 
  如何看待「机器学习不需要数学,很多算法封装好了,调个包就行」这种说法? 
  如何评价 DeepMind 在北京时间 19 年 1 月 25 日 2 点的《星际争霸 2》项目演示? 
  云计算已经发展10多年了,你最看好云计算为哪个行业创造的前景? 
  什么是人工智能?人工智能、机器学习、深度学习三者之间有什么关系吗? 
  AlphaGo 在围棋上战胜李世乭后,人工智能的下一个目标会是同为「有限元素组合创作」的音乐吗? 
  同样是做强化学习和AI,为什么华为诺亚方舟实验室做出的成果远不及DeepMind和OpenAI? 
  如何评价 2018 清华大学特等奖学金计算机大类(贵系、软院、姚班)无人通过一轮筛选? 

前一个讨论
你见过最烂的代码长什么样子?
下一个讨论
如何用matlab寻找二进制字符串中最长的“1”序列?





© 2024-09-19 - tinynew.org. All Rights Reserved.
© 2024-09-19 - tinynew.org. 保留所有权利