问:请定义术语《王者荣耀》。
答:多方参与的部分信息Markov决策博弈过程。
填空: 强化学习 可供我们解决上述问题。
连线:观察以下游戏界面,将每个区域连线相应的较优处理算法。
答:将spatial连接到卷积网络,将stats(和announcement、voice)连接到循环网络,将单位信息连接到多层ReLU/Sigmoid网络。
简答:观察Ye, Chen, Zhang, et.al.文献中一图:
你认为在优化算法的过程中,Action Mask部分的引入能够给算法提供什么样的提高?
答:算法会避免进行无效或极低效的操作,例如对static object尝试攻击等。
问:
在算法中引入平方和来设计evaluator function的意义何在?
答:去除符号影响,光滑化函数以进行梯度下降。
填空:Ye, Chen, Zhang, et.al.文献中使用PPO(proximal policy optimization)相对于之前算法的主要提升在于其 对时间步长不敏感 。
问:举一例选举英雄的策略。
答:Monte-Carlo决策搜索。
(加个私货黑下ML)问:Ye, Chen, Zhang, et. al.等的论文从数学的角度看缺乏什么?
答:结果的effectiveness和efficiency是通过experiment得到的而不是proof得到的。