作为提问者我也自问自答一下吧。这篇工作出来以后身边同事的观点都不是特别信服。觉得和自身以往的实验结果不符合。
我本人也读完了论文全文,对于这样有争议性的工作代码竟然没有开源也有点惊讶。但说说我的想法:
论文作者提到遮蔽率达到八成的时候困惑度perplexity 会高达1000多 这是符合直觉的。但是在模型表征层面和任务准确度方面却没有下降太多。这点笔者最近在做非自回归式的插入式生成。模型由一个遮蔽了绝大部分文本的破碎句子开始重新尝试复原原句。在经过细致的训练之后模型其实是可以学到并具有相应能力的。(有兴趣的小伙伴可以看看pointer或者cbart这两篇论文)。而根据笔者的同事曾经做过的一个实验来说,他并没有使用cls来进行预测,而是使用随机词的表征进行预测。但模型准确率也没有下降太多。
我觉得模型黑盒的层面很多,还有很多我们无法得到一个准确数学解析和理论指导的地方。该论文作者的实验未必不可复现,但如果要让人信服的话还是希望能尽快看到源码吧……
大家可以关注一下 Appendix A 里给出的实验设置,和原汁原味的 BERT 还是有不少不同之处的:
这个 recipe 已经和 BERT 产生比较大的区别了,需要辩证地看待这个结论。
【抖机灵】
1902年,英日同盟建立,日本民众欢呼雀跃,因为日本从此被纳入了帝国主义列强的利益分配系统,开始成为列强的第一步。
2001年,中国加入了WTO,中国民众欢呼雀跃,因为中国被纳入了资本主义国际贸易利益分配系统,开始成为超级经济体的第一步。
然后二十世纪80年代,日本最喜欢看的,就是采访一堆白人,然后看他们如何夸日本,并且在酒吧雇佣白人陪酒女来现实面子。
二十一世纪一零年代,中国人开始喜欢,看一堆在中国的白人做节目,然后看他们如何夸中国,并请了一堆白人来做广告。
历史都是一种循环,十几年走了日本七十年的过程,也算不错了嘛。东亚中日韩三个民族,虽然彼此互相嫌弃,但骨子里真是一个模子里刻出来的。不可否认,世界上有许多对于日本/中国 ,感兴趣有好感的欧美人。只不过,许多我们看到的,已经被做成生意了。