首页

能否介绍一下强化学习（Reinforcement Learning），以及与监督学习的不同？第1页

1

Cybernetic1 网友的相关建议:

我在外国博客上写过一些基於人工智能的文章，有些搬到了博客园，上面转录的是其中一篇：

什么是强化学习？

我正在研究的 AI architecture 是用强化学习控制 recurrent 神经网络，我相信这个设置可以做到逻辑推理和答问题的功能，基本上就是 strong AI。但还有一些未解决的细节。论文的标题是《游荡在思考的迷宫中》，即将发表。

補充：還有一點，就是監督學習的問題可以很容易化為強化學習的問題（雖然這樣增加了複雜性而沒有益處），但反之則沒有一般的辦法。見：Reinforcement Learning and its Relationship to Supervised Learning，Barto and Dietterich, 2004.

"But is it possible to do this the other way around: to convert a reinforcement learning task into a supervised learning task?

"In general, there is no way to do this. The key difficulty is that whereas in supervised learning, the goal is to reconstruct the unknown function f that assigns output values y to data points x, in reinforcement learning, the goal is to find the input x* that gives the maximum reward R(x*).

"Nonetheless, is there a way that we could apply ideas from supervised learning to perform reinforcement learning? Suppose, for example, that we are given a set of training examples of the form (xi, R(xi)), where the xi are points and the R(xi) are the corresponding observed rewards. In supervised learning, we would attempt to find a function h that approximates R well. If h were a perfect approximation of R, then we could find x* by applying standard optimization algorithms to h."

能否介绍一下强化学习（Reinforcement Learning），以及与监督学习的不同？的其他答案点击这里

1

相关话题

  对于古典钢琴这种大师都很难不出错的事情，为什么不用机器人来完成？
  因果推断（causal inference）是回归（regression）问题的一种特例吗？
  为什么我学过微积分、线性代数和概率论，还是看不懂机器学习？
  如何理解深度学习中的deconvolution networks？
  NLP文本分类的本质是不是其实是找相似，对于要分类的句子，在训练集里找最相似的句子？
  我应该从计算机视觉回到做FPGA 吗？
  大家对人工智能医疗怎么看？人工智能医疗应该着重往那个方向发展比较好？
  全球首个用青蛙细胞制造的「活体机器人」诞生，有怎样的意义？
  中国崛起超越美国会不会成为一件无意义的事？
  统计模型和概率模型的区别是什么呢？

前一个讨论

什么是真正的动物保护？

下一个讨论

做开发你遇到最无理的需求是什么？

相关的话题

  为什么在脸部打马赛克的时候通常选择在眼部？
  人工智能在发展到极高的程度之后能否算得上是一种生命？
  目前 CS 本科加硕士，请问博士申请 CS，还是 Neuroscience？
  c4.5为什么使用信息增益比来选择特征？
  奇异值分解（SVD）有哪些很厉害的应用？
  实验室一块GPU都没有怎么做深度学习？
  听九段国手范廷钰讲解人机对弈大战的 Live 是种怎样的体验？
  动画中的高达造型在机器人 / 机甲美学中是否已经是最优解了？
  机器人视觉测量与控制的重点在哪？
  如何评价马斯克称激光雷达是一个诱人的局部最大值？
  KL散度衡量的是两个概率分布的距离吗？
  超越人类的人工智能 (AI) 是否能够实现？
  机械精密加工硕士，两年自学编程，无相关项目能找到编程类工作吗?
  为什么梯度下降能找到最小值？
  CVPR 2015 有什么值得关注的亮点？
  如何看待 Facebook 首席 AI 科学家 Yann LeCun 被群骂？
  为什么 Non-Convex Optimization 受到了越来越大的关注？
  如何看待近期大量的第三方QQ机器人停止运营？
  ICML2020有哪些值得关注的工作?
  如何评价AlphaGo Zero？
  在实际工程系统中，MPC太复杂，难以做到realtime。因此都利用数据，MPC对比RL还有优势么?
  如何选购扫地机器人？
  如何评价 DeepMind 公司？
  国内有哪些不错的CV(计算机视觉)团队?
  研究推荐系统要对NLP很了解吗？
  请解释下variational inference？
  人脑有海量的神经元（参数），那么人脑有没有「过拟合」行为？
  你实践中学到的最重要的机器学习经验是什么？
  除了深度学习，机器学习领域近年来还有什么热点吗？
  如何评价余凯在朋友圈发表呼吁大家用 caffe、mxnet 等框架，避免使用 TensorFlow？

© 2025-06-27 - tinynew.org. All Rights Reserved.
© 2025-06-27 - tinynew.org. 保留所有权利