百科问答小站 logo
百科问答小站 font logo



如何评价微软机器翻译在 WMT2017 中英翻译达到「人类水平」? 第1页

  

user avatar   qiao-feng-xi 网友的相关建议: 
      

先就大家都贴的这张图做一点解释,有些嘲讽实在也没有到点子上。


1. 报道中超过人类水平的是中译英,这张图tweet中也提到了这一点,用一个英译中的结果来嘲讽本身也比较讽刺吧。

2. 刷纪录的model本身体量必定巨大,不太可能已经完美部署进了现有的产品之中。后续还要进过大量的工作进行模型的压缩使其达到一个efficiency和performance的平衡。

3. model实现的是newstest2017通用新闻语料上的突破,这一点还是要认识清楚,而几乎所有实际部署的机器翻译引擎中都有大量的人工规则(这一点是否现在还适用我不是特别确信),距离这个突破到实际产品除了性能还有通用性的问题。

4. 我个人觉得报道中最特别的,可能还是说突破的标准。BLEU是一个简单的但绝不是一个足够好的metric,在Image Caption中用关键词的匹配来度量结果可能已经算是合格,但是对于机器翻译而言,corpus中来自不同译者标准翻译的语言风格、对译文的整体流畅性要求等难以捉摸的因素使得这样的metric很难有实际的说服力。在机器翻译发展的初期使用这样的简单的metric是有其益处的,但想要冲击人类水平,就有必要去弃用BLEU而是通过人工评分的方式来宣告超过人类水平(外包翻译),这其实是一个很有说服力的结果,无论你说他们采用了什么trick也好,多夸大其词也好。这个performance本身是有说服力的。

5. paper我没有细看,所以不好多作分析,只是粗略的印象中,介绍文章中提到的几种方法(对偶学习等),本身也都是MSRA发展了好些年的方法。尽管不算什么新鲜事物,但其真实潜力可能只有在他们手上才能发挥完全(如果有人follow过微软家的一些工作大概能体会这种感觉)。所以我倾向于认为这个成果在现在的语境下,主要是一个工程上的突破。

6. 但回望ImageNet的发展历程,机器翻译的这个突破,本身也具有里程碑的价值,让我们认识到翻译这个问题并非之前想象中那样的遥不可及。当然这一些结论,建立在超过人类水平这句话本身是成立的。而我倾向于认为这句话在一定的限制下已经成立了。

7. 那么如何去评价这项工作的意义?我说不上评价,只是感到MSRA的宣传能力配不上他们的研究水平。做出一个这样的突破就只是联系几家科技媒体刷一波存在感,但是大家对于这种“达到人类水平”的说辞早就习惯了甚至开始有一些抵触,所以也难怪这个成果出来以后到处都是嘲讽?MSRA这些年取得了很多突破,上一次这样宣称突破人类水平的机器阅读理解(machine comprehension),是由R-net在SQUAD数据集上实现,但是其论文不投往顶会又不去推广,甚至连Google scholar搜半天都找不到,代码也不开源,Github上有好几个个人项目根本也就没有办法复现paper中的结果。大概MS家对于这种事情也根本不那么在意?再往前ResNet,MS COCO dataset也都是很有分量的工作和贡献,但是比起隔壁家Google一推出东西Github上就遍地开花,大众就惊呼黑科技相比,真的差得太远了。这中间可不仅仅是一个TensorFlow的差距(CNTK真的难用我就不去吹了)。


抛砖引玉,如有谬误感谢匡正。




  

相关话题

  如何评价 BERT 模型? 
  硕士方向,选择迁移学习还是自然语言处理? 
  如何评价微软提出的无监督视觉模型BEiT:ImageNet达到88.6,ADE20K达到57.0? 
  CPU和GPU跑深度学习差别有多大? 
  如何评价1700亿参数的GPT-3? 
  为什么 MobileNet、ShuffleNet 在理论上速度很快,工程上并没有特别大的提升? 
  机器学习里面的流形都是怎么用的? 
  目前有哪些比较成功的人工智能应用? 
  为什么 larger batch size 对对比学习的影响比对监督学习的影响要大? 
  为什么Transformer适合做多模态任务? 

前一个讨论
考研有什么好处,在目前情况下,对人生的改变大吗?
下一个讨论
如何评价《猎人》2018年复刊以来的剧情走向?





© 2024-11-21 - tinynew.org. All Rights Reserved.
© 2024-11-21 - tinynew.org. 保留所有权利