百科问答小站 logo
百科问答小站 font logo



在优化问题里,强化学习相比启发式搜索算法有什么好处? 第1页

  

user avatar   zhenlingcn 网友的相关建议: 
      

最大的好处就是神经网络的可塑性非常强,并且号称具有迁移学习能力。举一个最简单的例子,对于传统优化问题来说,无论是贝叶斯优化还是启发式算法,对于每求解一组新问题,都需要针对每个实例(例如一个TSP路径规划实例)运行一次完整的优化算法。但是实际上这些问题的最优解可能有某种强关联,对于这种情况,基于神经网络的强化学习算法一旦解决了其中某一个问题,就有可能快速求解其他问题。一个直观的理解就是Pointer Network,通过监督学习/强化学习,神经网络可以根据已经求解的TSP方案确定一个新的TSP规划问题的方案。

但是,上述情况只是理想情况,在真实的基于强化学习的优化场景中,强化学习的训练过程其实相当复杂,目前的主流算法A3C和PPO目前来看并不能高效利用搜索过程中的知识。目前来看,RL算法在调参之后可以达到近似专业求解器的效果。但是短期来看,鉴于专业求解器的可解释性和鲁棒性,基于强化学习的优化算法依然有较大的提升空间。下图是港中深的查宏远老师AAAI 2021年的RL-Based TSP Solver的最新成果,可以看到RL方法尽管已经有非常大的进展,但是相比启发式方法依然有一定程度的差距。

上面有提到,神经网络擅长学习而不擅长搜索,而传统搜索算法,例如演化算法和启发式搜索算法擅长搜索而不擅长学习。考虑到这种困境,其实一个很好的解决方案是让演化算法去搜,然后让神经网络去看着演化算法的结果学习。目前来说,优化算法和强化学习的结合已经逐渐引起了大家的注意。在目前的基于强化学习的TSP求解算法中,已经有不少的算法尝试先基于近似最优解(Oracle)进行imitation learning/supervised learning,随后再使用强化学习算法进行学习。上图所示的SL+RL就代表了这种思想,可以看到相比传统的单纯基于RL或SL的Deep Learning Solver,这种混合了启发式算法知识和强化学习策略的求解器可以取到更好的性能。可以预见,在未来,这样的模式将会被广泛推广到Bin Packing、Job Shop Scheduling等各个组合优化领域,相比与熟优熟劣的争执,这种对不同算法的结合策略显然是更有价值的。




  

相关话题

  你遇见过什么当时很有潜力但是最终没有流行的深度学习算法? 
  如何理解 Farkas 引理? 
  有哪些比较好的机器学习、数据挖掘、计算机视觉的订阅号、微博或者是论坛? 
  caffe开发过程中使用了哪些工具? 
  用于数据挖掘的聚类算法有哪些,各有何优势? 
  请问应该怎样去学习图像识别和深度学习? 
  加州大学伯克利分校为何能连续孵化出 Mesos,Spark,Alluxio,Ray 等重量级开源项目? 
  全连接层的作用是什么? 
  如何看待指出 神经网络的训练罪魁祸首是退化一文? 
  如何看待Geoffrey Hinton的言论,深度学习要另起炉灶,彻底抛弃反向传播? 

前一个讨论
BERT模型可以使用无监督的方法做文本相似度任务吗?
下一个讨论
传说中越老越吃香的会计和审计会有 35 岁危机吗?





© 2024-11-09 - tinynew.org. All Rights Reserved.
© 2024-11-09 - tinynew.org. 保留所有权利