百科问答小站 logo
百科问答小站 font logo



在实际工程系统中,MPC太复杂,难以做到realtime。因此都利用数据,MPC对比RL还有优势么? 第1页

  

user avatar   REX-X-96-9 网友的相关建议: 
      

MPC目标是在给定模型下,优化有限长horizon的一个cost function,来构建控制输入。

显然,MPC的目标和Model based RL并不冲突,也就是technically speaking,MPC是RL的一个子问题而已。

ML的人厉害的地方在于,他们把他们搞的东西内涵定义的如此之广,其他领域的东西,也是他们的东西,其他领域有了进步,也能增加他们的荣光。这点传统领域的人好好学学。

/////////////////////////////////////////

如果说狭义上有什么区别的话,MPC传统上是基于对轨迹直接数值优化求解的,因此一般只能给出当前状态下的最优控制输入。而大部分RL的求解是要给出任意状态的控制输入,即一个optimal control law(RL那边叫control policy, 但我要坚持我们control的传统)。例如最简单的mpc问题:线性系统二次型cost function,那就相当于本科生就学的LQR,此时MPC有解析形式解,因此LQR情况下MPC也可以给出一个control law,而不只是当前状态的最优控制输入。

可以注意到,model based RL和传统的optimal control并无不同,只是换了个名称而已。虽然听上去RL要给出一个global control law很厉害的样子,但绝大部分的系统这一点实际是不能可靠做到的,于是最近几年DRL就主张用Deep nets去fit这样的control law (or the value function)。至于能不能work,那就看诸位对ML的信仰虔诚不虔诚了。至于MPC就朴实的多,数值优化至少能返回一个local optimal,有的时候可以证明local optimal就可以达到理想的控制效果了。而利用优化问题的稀疏性,mpc 优化算法可以做到非常实时,嚷嚷mpc爆慢的摸着良心说你有没有学过最优化理论。当然,对于复杂的非凸问题,靠局部的数值优化也是不够的,这里就不展开了。

再补充一点,如果只是给出当前状态下的最优输入,这个问题又被叫做optimal planning。当然,按照广义的RL, optimal planning也算是RL的,比如monte carlo tree search,作为一种planning algorithm, 也通常被认为是RL。




  

相关话题

  为什么CV能做到让一幅人脸图动了笑了,而NLP的text-style-transfer进展貌似一般? 
  2021年了,如何评价微软亚研提出的对偶学习(Dual Learning)? 
  scikit-learn, tensorflow, pytorch真的只需要查下API,不需要学吗? 
  AI(或者说神经网络/深度学习)能够实现科学(尤其是物理学)研究中提出假设这一步嘛? 
  如何比较Keras, TensorLayer, TFLearn ? 
  如何评价 DeepMind arXiv 论文公开的 AlphaZero 击败国际象棋和将棋的最强引擎? 
  为什么Transformer要用LayerNorm? 
  你见过最差的算法工程师能差到什么程度? 
  2022 年初,你认为哪项成果代表了现在人工智能的最高水平? 
  为什么小模型已经可以很好地拟合数据集了,换大模型效果却要比小模型好? 

前一个讨论
2020年你的控制理论研究有什么收获和感悟?
下一个讨论
大林算法与PID算法有什么本质区别?





© 2024-12-18 - tinynew.org. All Rights Reserved.
© 2024-12-18 - tinynew.org. 保留所有权利