如何评价微软机器翻译在 WMT2017 中英翻译达到「人类水平」？第1页

qiao-feng-xi 网友的相关建议:

先就大家都贴的这张图做一点解释，有些嘲讽实在也没有到点子上。

1. 报道中超过人类水平的是中译英，这张图tweet中也提到了这一点，用一个英译中的结果来嘲讽本身也比较讽刺吧。

2. 刷纪录的model本身体量必定巨大，不太可能已经完美部署进了现有的产品之中。后续还要进过大量的工作进行模型的压缩使其达到一个efficiency和performance的平衡。

3. model实现的是newstest2017通用新闻语料上的突破，这一点还是要认识清楚，而几乎所有实际部署的机器翻译引擎中都有大量的人工规则（这一点是否现在还适用我不是特别确信），距离这个突破到实际产品除了性能还有通用性的问题。

4. 我个人觉得报道中最特别的，可能还是说突破的标准。BLEU是一个简单的但绝不是一个足够好的metric，在Image Caption中用关键词的匹配来度量结果可能已经算是合格，但是对于机器翻译而言，corpus中来自不同译者标准翻译的语言风格、对译文的整体流畅性要求等难以捉摸的因素使得这样的metric很难有实际的说服力。在机器翻译发展的初期使用这样的简单的metric是有其益处的，但想要冲击人类水平，就有必要去弃用BLEU而是通过人工评分的方式来宣告超过人类水平（外包翻译），这其实是一个很有说服力的结果，无论你说他们采用了什么trick也好，多夸大其词也好。这个performance本身是有说服力的。

5. paper我没有细看，所以不好多作分析，只是粗略的印象中，介绍文章中提到的几种方法（对偶学习等），本身也都是MSRA发展了好些年的方法。尽管不算什么新鲜事物，但其真实潜力可能只有在他们手上才能发挥完全（如果有人follow过微软家的一些工作大概能体会这种感觉）。所以我倾向于认为这个成果在现在的语境下，主要是一个工程上的突破。

6. 但回望ImageNet的发展历程，机器翻译的这个突破，本身也具有里程碑的价值，让我们认识到翻译这个问题并非之前想象中那样的遥不可及。当然这一些结论，建立在超过人类水平这句话本身是成立的。而我倾向于认为这句话在一定的限制下已经成立了。

7. 那么如何去评价这项工作的意义？我说不上评价，只是感到MSRA的宣传能力配不上他们的研究水平。做出一个这样的突破就只是联系几家科技媒体刷一波存在感，但是大家对于这种“达到人类水平”的说辞早就习惯了甚至开始有一些抵触，所以也难怪这个成果出来以后到处都是嘲讽？MSRA这些年取得了很多突破，上一次这样宣称突破人类水平的机器阅读理解（machine comprehension），是由R-net在SQUAD数据集上实现，但是其论文不投往顶会又不去推广，甚至连Google scholar搜半天都找不到，代码也不开源，Github上有好几个个人项目根本也就没有办法复现paper中的结果。大概MS家对于这种事情也根本不那么在意？再往前ResNet，MS COCO dataset也都是很有分量的工作和贡献，但是比起隔壁家Google一推出东西Github上就遍地开花，大众就惊呼黑科技相比，真的差得太远了。这中间可不仅仅是一个TensorFlow的差距（CNTK真的难用我就不去吹了）。

抛砖引玉，如有谬误感谢匡正。

如何评价微软机器翻译在 WMT2017 中英翻译达到「人类水平」？的其他答案点击这里