百科问答小站 logo
百科问答小站 font logo



在优化问题里,强化学习相比启发式搜索算法有什么好处? 第1页

  

user avatar   zhenlingcn 网友的相关建议: 
      

最大的好处就是神经网络的可塑性非常强,并且号称具有迁移学习能力。举一个最简单的例子,对于传统优化问题来说,无论是贝叶斯优化还是启发式算法,对于每求解一组新问题,都需要针对每个实例(例如一个TSP路径规划实例)运行一次完整的优化算法。但是实际上这些问题的最优解可能有某种强关联,对于这种情况,基于神经网络的强化学习算法一旦解决了其中某一个问题,就有可能快速求解其他问题。一个直观的理解就是Pointer Network,通过监督学习/强化学习,神经网络可以根据已经求解的TSP方案确定一个新的TSP规划问题的方案。

但是,上述情况只是理想情况,在真实的基于强化学习的优化场景中,强化学习的训练过程其实相当复杂,目前的主流算法A3C和PPO目前来看并不能高效利用搜索过程中的知识。目前来看,RL算法在调参之后可以达到近似专业求解器的效果。但是短期来看,鉴于专业求解器的可解释性和鲁棒性,基于强化学习的优化算法依然有较大的提升空间。下图是港中深的查宏远老师AAAI 2021年的RL-Based TSP Solver的最新成果,可以看到RL方法尽管已经有非常大的进展,但是相比启发式方法依然有一定程度的差距。

上面有提到,神经网络擅长学习而不擅长搜索,而传统搜索算法,例如演化算法和启发式搜索算法擅长搜索而不擅长学习。考虑到这种困境,其实一个很好的解决方案是让演化算法去搜,然后让神经网络去看着演化算法的结果学习。目前来说,优化算法和强化学习的结合已经逐渐引起了大家的注意。在目前的基于强化学习的TSP求解算法中,已经有不少的算法尝试先基于近似最优解(Oracle)进行imitation learning/supervised learning,随后再使用强化学习算法进行学习。上图所示的SL+RL就代表了这种思想,可以看到相比传统的单纯基于RL或SL的Deep Learning Solver,这种混合了启发式算法知识和强化学习策略的求解器可以取到更好的性能。可以预见,在未来,这样的模式将会被广泛推广到Bin Packing、Job Shop Scheduling等各个组合优化领域,相比与熟优熟劣的争执,这种对不同算法的结合策略显然是更有价值的。




  

相关话题

  机器学习中有哪些形式简单却很巧妙的idea? 
  行为识别常用哪种特征提取? 
  如何看待李国杰院士在科学网发文称,国内 AI 研究「顶不了天、落不了地」,该想想了? 
  为何以范剑青老师的 Sure Independence Screening 为代表的筛选法没有流行呢? 
  如何比较Keras, TensorLayer, TFLearn ? 
  如果有一天人类被AI取代,他们将以什么样的方式生活,娱乐,工作? 
  机器学习算法进行分类时,样本极度不平衡,评估模型要看哪些指标? 
  学习人工智能,术语看不懂怎么办? 
  研一,在学机器学习和深度学习,为什么感觉越学越不会,怎么解决这个问题? 
  如果有第谷的数据,现在的机器学习,深度学习有办法学出开普勒三定律吗? 

前一个讨论
BERT模型可以使用无监督的方法做文本相似度任务吗?
下一个讨论
传说中越老越吃香的会计和审计会有 35 岁危机吗?





© 2024-11-21 - tinynew.org. All Rights Reserved.
© 2024-11-21 - tinynew.org. 保留所有权利