成神了。
之前的估值和策略合并,这是合理的。
rollout 和蒙地卡罗 本来就是同样的,只是为了快速采用快速走子,这个合并很明显的选择。
简单说,这个论文就是把以前人工干预的东西全部合并入新的体系,数学上学术上可以算完美版了。
三天超越alphago ,可见速度+算法+数据的厉害,人类历史的三千年智慧只等于TPU的三天。
建议:Alphago Zero 对人类历史的所有棋谱进行一次遍历。找出那些10+%胜率变化的妙招和败招,一则可以统计下人类的妙手发生率(特别是造成比Alphago Zero 还好的妙招)。基本上看看人类历史上有多少手超越Alphago Zero 的招数,看看人类做为一个整体,是否还有用。
顺便看看围棋的历史,到底是能力为王还是传承为王,这个是围棋文化的一个历史课题啊。
另外说说棋力:
Zero 对master 90% 胜率,这在围棋中基本是让两子的差距了。
Zero 对 alphagoLee 100% 胜率,这是三子以上四子的差距了。
反过来可以推,master 对 alphagoLee 让三子很正常。柯洁当时该让三子试试,发挥下人类的余热啊。