看到大家在吐槽 AI 强化学习的内容我就想分享最近刷到的这个直播UP主。
这位 dalao 直播训练 Hollow Knight 的 AI,还把代码开源在这:ailec0623/DQN_HollowKnight。
其实 AI 并不知道如高赞所说的那些:
你经济多了64,我知道你刚打完云中君
你经济多了48,我知道你刚打完佩奇一家
你经济多了46,我知道你这个兵没有补到
你经济多了83,我知道你队友在旁边,分走了20的经济
真实的强化学习是靠 reward(奖励)驱动的,做了对结果有益的事情就会加分,做错了就会扣分。
去年腾讯的AI Lab 就在 NeurIPS(人工智能顶会)上介绍了绝悟AI的技术原理
先识别英雄、小兵、大小龙、防御塔
然后AI自己选择最合适的 Action(操作)来选择攻击、移动、用技能还是回城;检测技能距离和位移距离、再检测攻击目标。
最后看这个行为对最后胜利的影响:
然后放出了影响 AI 决策的几个参数(发育、战绩、伤害、推塔、输赢)
后来还用强化学习研究选择英雄阵容(BP阶段的策略)
现在用来训练 AI 已经不会有全图视野、0 反应延迟,但是它确实能够精确预判你的技能和走位,不过有些时候 AI 会出现越训练越蠢的情况x,俗称人工智障,或许看看上面的 Reward Design 后你针对它想出一套阵容或者奇怪出装,说不定就能骗过它xxx
最后,AI 的出现从来就不是为了毁灭这个游戏本身,AlphaGo 出现后大家用来辅助训练棋手,绝悟人机出现后也可以用来训练顶级强队。
数据分析师可以通过 AI 的方式排兵布阵拓宽 BP 思路;
玩家通过分析 AI 训练结果找到能够提升自己的;
平衡游戏的数据师也可以利用 AI 博弈来提前测试自己的改动合不合理;
......
打不过绝悟人机也不丢脸,柯洁不也下不过阿尔法狗吗hhhhh