百科问答小站 logo
百科问答小站 font logo



如何评价陈丹琦团队新作 Should You Mask 15% in MLM? 第1页

  

user avatar   ceng-yuan-16 网友的相关建议: 
      

作为提问者我也自问自答一下吧。这篇工作出来以后身边同事的观点都不是特别信服。觉得和自身以往的实验结果不符合。

我本人也读完了论文全文,对于这样有争议性的工作代码竟然没有开源也有点惊讶。但说说我的想法:

论文作者提到遮蔽率达到八成的时候困惑度perplexity 会高达1000多 这是符合直觉的。但是在模型表征层面和任务准确度方面却没有下降太多。这点笔者最近在做非自回归式的插入式生成。模型由一个遮蔽了绝大部分文本的破碎句子开始重新尝试复原原句。在经过细致的训练之后模型其实是可以学到并具有相应能力的。(有兴趣的小伙伴可以看看pointer或者cbart这两篇论文)。而根据笔者的同事曾经做过的一个实验来说,他并没有使用cls来进行预测,而是使用随机词的表征进行预测。但模型准确率也没有下降太多。

我觉得模型黑盒的层面很多,还有很多我们无法得到一个准确数学解析和理论指导的地方。该论文作者的实验未必不可复现,但如果要让人信服的话还是希望能尽快看到源码吧……


user avatar   ju-cheng-37 网友的相关建议: 
      

大家可以关注一下 Appendix A 里给出的实验设置,和原汁原味的 BERT 还是有不少不同之处的:

  • Tokenizer 用的是 RoBERTa 的 tokenizer
  • [MASK] token 并没有采用 80-10-10([mask]-original-random)的替换策略
  • objective function 没有用 NSP
  • 因为采用了比较大的 LR(peak LR 2e-3),所以采用的是 Pre-Norm

这个 recipe 已经和 BERT 产生比较大的区别了,需要辩证地看待这个结论。


user avatar   su-jian-lin-22 网友的相关建议: 
      

【抖机灵】

1902年,英日同盟建立,日本民众欢呼雀跃,因为日本从此被纳入了帝国主义列强的利益分配系统,开始成为列强的第一步。

2001年,中国加入了WTO,中国民众欢呼雀跃,因为中国被纳入了资本主义国际贸易利益分配系统,开始成为超级经济体的第一步。

然后二十世纪80年代,日本最喜欢看的,就是采访一堆白人,然后看他们如何夸日本,并且在酒吧雇佣白人陪酒女来现实面子。

二十一世纪一零年代,中国人开始喜欢,看一堆在中国的白人做节目,然后看他们如何夸中国,并请了一堆白人来做广告。

历史都是一种循环,十几年走了日本七十年的过程,也算不错了嘛。东亚中日韩三个民族,虽然彼此互相嫌弃,但骨子里真是一个模子里刻出来的。不可否认,世界上有许多对于日本/中国 ,感兴趣有好感的欧美人。只不过,许多我们看到的,已经被做成生意了。




  

相关话题

  单bert可以用来做文本相似度计算任务吗? 
  BERT中,multi-head 768*64*12与直接使用768*768矩阵统一计算,有什么区别? 
  为什么 BERT 的 intermediate_size 这么大? 
  假如我穿越到2017年第一个提出了Transformer、BERT等模型,我可以保送到清华北大吗? 
  为什么Bert中的CLS在未fine tune时作为sentence embedding性能非常糟糕? 
  为什么 Bert 的三个 Embedding 可以进行相加? 
  单bert可以用来做文本相似度计算任务吗? 
  假如我穿越到2017年第一个提出了Transformer、BERT等模型,我可以保送到清华北大吗? 
  NLP文本匹配问题的本质是不是 对于要预测的句子,遍历候选句子 从训练数据集里寻找最相似的pair? 
  现在的BERT等语言模型,最快训练要多久? 

前一个讨论
Bert中的词向量各向异性具体什么意思啊?
下一个讨论
深圳租金持续下跌,有房东主动减租,背后的原因是什么?





© 2024-11-22 - tinynew.org. All Rights Reserved.
© 2024-11-22 - tinynew.org. 保留所有权利