首页

能否介绍一下强化学习（Reinforcement Learning），以及与监督学习的不同？第1页

1

Cybernetic1 网友的相关建议:

我在外国博客上写过一些基於人工智能的文章，有些搬到了博客园，上面转录的是其中一篇：

什么是强化学习？

我正在研究的 AI architecture 是用强化学习控制 recurrent 神经网络，我相信这个设置可以做到逻辑推理和答问题的功能，基本上就是 strong AI。但还有一些未解决的细节。论文的标题是《游荡在思考的迷宫中》，即将发表。

補充：還有一點，就是監督學習的問題可以很容易化為強化學習的問題（雖然這樣增加了複雜性而沒有益處），但反之則沒有一般的辦法。見：Reinforcement Learning and its Relationship to Supervised Learning，Barto and Dietterich, 2004.

"But is it possible to do this the other way around: to convert a reinforcement learning task into a supervised learning task?

"In general, there is no way to do this. The key difficulty is that whereas in supervised learning, the goal is to reconstruct the unknown function f that assigns output values y to data points x, in reinforcement learning, the goal is to find the input x* that gives the maximum reward R(x*).

"Nonetheless, is there a way that we could apply ideas from supervised learning to perform reinforcement learning? Suppose, for example, that we are given a set of training examples of the form (xi, R(xi)), where the xi are points and the R(xi) are the corresponding observed rewards. In supervised learning, we would attempt to find a function h that approximates R well. If h were a perfect approximation of R, then we could find x* by applying standard optimization algorithms to h."

能否介绍一下强化学习（Reinforcement Learning），以及与监督学习的不同？的其他答案点击这里

1

相关话题

  如何看待现在的作战机械人无用论？
  如何看待全球第一位「数字航天员小诤」?数字技术跨界应用是否正在加快？
  深度学习工作站中使用AMD的CPU会有问题吗？
  人工智能会是泡沫吗？
  LSTM如何来避免梯度弥散和梯度爆炸？
  AI在网络安全领域（尤其是威胁检测领域），有什么好的应用场景？
  语义网所谓的“本体”的具体例子是什么？
  如何看待 CMU 新开设的 AI 专业？
  人工智能会让未来的广告变成什么样子？
  为什么在SGD中使用L1正则化很难获得稀疏性？

前一个讨论

什么是真正的动物保护？

下一个讨论

做开发你遇到最无理的需求是什么？

相关的话题

  中国工程院院士邬贺铨称未来拍电影不用花钱请小鲜肉，用技术就可以画出来。这真的可以实现吗？难度有多大？
  如何看待MXNet获得amazon官方支持首位？
  如何评价英伟达于 GTC 2021 大会发布的基于 ARM 架构的 Grace CPU？
  遇到一个具体的六轴机械臂，对其时间最优轨迹规划算法进行设计需要考虑哪些问题？
  如何看待斯坦福博士生2prime陆一平关于新冠起源的一系列言论？
  有人说「真正的人工智能至少还要几百年才能实现」，真的是这样吗？
  算法研究属于数学专业还是计算机专业？
  如何自学人工智能？
  如何看待【睡前消息334】关键词“工作压力”被机器人检测刷屏？
  中国人工智能图像识别技术的开创者是谁？
  AI军事指挥能力会超过人类最优秀的指挥官吗？
  阿尔法解决蛋白质折叠的突破，是否预示人类需要放弃寻找精确的物理公式改用AI方法预测自然规律？
  如何看待与评价 AAAI 2022 的录用结果？
  要研究深度学习的可解释性（Interpretability），应从哪几个方面着手？
  最先会被机器人代替的几个职业将会是什么？
  旷视(Face++)完成C轮1亿美元融资，是否说明旷视已经进入独角兽阵营？
  人工智能、模式识别领域最终是否会被一种本质、通用的算法主导？
  AlphaGo 与李世石的第五局比赛中有哪些值得关注之处？
  如何看待End-to-End Object Detection with Transformers？
  机器人同事越来越多，如何避免自己在科技进步过程中被替代？
  物理专业的学生如何看待机器学习和大数据这些方向呢？
  adversarial training为什么会起作用？
  如何评价论文「Stochastic Training is Not Necessary ...」?
  如何看待指出神经网络的训练罪魁祸首是退化一文？
  自监督学习（Self-supervised Learning）有什么比较新的思路？
  Yoshua Bengio为什么能跟Hinton、LeCun相提并论？？
  2019年CVPR有哪些糟糕的论文?
  如何看待swin transformer成为ICCV2021的 best paper？
  为什么这么多 NLP 大牛硕士毕业去企业不留在学术界？
  如何看待 Python 进入山东小学课本？会推广到其他地区吗？

© 2025-06-27 - tinynew.org. All Rights Reserved.
© 2025-06-27 - tinynew.org. 保留所有权利