先就大家都贴的这张图做一点解释,有些嘲讽实在也没有到点子上。
1. 报道中超过人类水平的是中译英,这张图tweet中也提到了这一点,用一个英译中的结果来嘲讽本身也比较讽刺吧。
2. 刷纪录的model本身体量必定巨大,不太可能已经完美部署进了现有的产品之中。后续还要进过大量的工作进行模型的压缩使其达到一个efficiency和performance的平衡。
3. model实现的是newstest2017通用新闻语料上的突破,这一点还是要认识清楚,而几乎所有实际部署的机器翻译引擎中都有大量的人工规则(这一点是否现在还适用我不是特别确信),距离这个突破到实际产品除了性能还有通用性的问题。
4. 我个人觉得报道中最特别的,可能还是说突破的标准。BLEU是一个简单的但绝不是一个足够好的metric,在Image Caption中用关键词的匹配来度量结果可能已经算是合格,但是对于机器翻译而言,corpus中来自不同译者标准翻译的语言风格、对译文的整体流畅性要求等难以捉摸的因素使得这样的metric很难有实际的说服力。在机器翻译发展的初期使用这样的简单的metric是有其益处的,但想要冲击人类水平,就有必要去弃用BLEU而是通过人工评分的方式来宣告超过人类水平(外包翻译),这其实是一个很有说服力的结果,无论你说他们采用了什么trick也好,多夸大其词也好。这个performance本身是有说服力的。
5. paper我没有细看,所以不好多作分析,只是粗略的印象中,介绍文章中提到的几种方法(对偶学习等),本身也都是MSRA发展了好些年的方法。尽管不算什么新鲜事物,但其真实潜力可能只有在他们手上才能发挥完全(如果有人follow过微软家的一些工作大概能体会这种感觉)。所以我倾向于认为这个成果在现在的语境下,主要是一个工程上的突破。
6. 但回望ImageNet的发展历程,机器翻译的这个突破,本身也具有里程碑的价值,让我们认识到翻译这个问题并非之前想象中那样的遥不可及。当然这一些结论,建立在超过人类水平这句话本身是成立的。而我倾向于认为这句话在一定的限制下已经成立了。
7. 那么如何去评价这项工作的意义?我说不上评价,只是感到MSRA的宣传能力配不上他们的研究水平。做出一个这样的突破就只是联系几家科技媒体刷一波存在感,但是大家对于这种“达到人类水平”的说辞早就习惯了甚至开始有一些抵触,所以也难怪这个成果出来以后到处都是嘲讽?MSRA这些年取得了很多突破,上一次这样宣称突破人类水平的机器阅读理解(machine comprehension),是由R-net在SQUAD数据集上实现,但是其论文不投往顶会又不去推广,甚至连Google scholar搜半天都找不到,代码也不开源,Github上有好几个个人项目根本也就没有办法复现paper中的结果。大概MS家对于这种事情也根本不那么在意?再往前ResNet,MS COCO dataset也都是很有分量的工作和贡献,但是比起隔壁家Google一推出东西Github上就遍地开花,大众就惊呼黑科技相比,真的差得太远了。这中间可不仅仅是一个TensorFlow的差距(CNTK真的难用我就不去吹了)。
抛砖引玉,如有谬误感谢匡正。