首页

如何评价陈丹琦团队新作 Should You Mask 15% in MLM? 第1页

1

ceng-yuan-16 网友的相关建议:

作为提问者我也自问自答一下吧。这篇工作出来以后身边同事的观点都不是特别信服。觉得和自身以往的实验结果不符合。

我本人也读完了论文全文，对于这样有争议性的工作代码竟然没有开源也有点惊讶。但说说我的想法：

论文作者提到遮蔽率达到八成的时候困惑度perplexity 会高达1000多这是符合直觉的。但是在模型表征层面和任务准确度方面却没有下降太多。这点笔者最近在做非自回归式的插入式生成。模型由一个遮蔽了绝大部分文本的破碎句子开始重新尝试复原原句。在经过细致的训练之后模型其实是可以学到并具有相应能力的。（有兴趣的小伙伴可以看看pointer或者cbart这两篇论文）。而根据笔者的同事曾经做过的一个实验来说，他并没有使用cls来进行预测，而是使用随机词的表征进行预测。但模型准确率也没有下降太多。

我觉得模型黑盒的层面很多，还有很多我们无法得到一个准确数学解析和理论指导的地方。该论文作者的实验未必不可复现，但如果要让人信服的话还是希望能尽快看到源码吧……

ju-cheng-37 网友的相关建议:

大家可以关注一下 Appendix A 里给出的实验设置，和原汁原味的 BERT 还是有不少不同之处的：

Tokenizer 用的是 RoBERTa 的 tokenizer
[MASK] token 并没有采用 80-10-10（[mask]-original-random）的替换策略
objective function 没有用 NSP
因为采用了比较大的 LR（peak LR 2e-3），所以采用的是 Pre-Norm

这个 recipe 已经和 BERT 产生比较大的区别了，需要辩证地看待这个结论。

su-jian-lin-22 网友的相关建议:

【抖机灵】

1902年，英日同盟建立，日本民众欢呼雀跃，因为日本从此被纳入了帝国主义列强的利益分配系统，开始成为列强的第一步。

2001年，中国加入了WTO，中国民众欢呼雀跃，因为中国被纳入了资本主义国际贸易利益分配系统，开始成为超级经济体的第一步。

然后二十世纪80年代，日本最喜欢看的，就是采访一堆白人，然后看他们如何夸日本，并且在酒吧雇佣白人陪酒女来现实面子。

二十一世纪一零年代，中国人开始喜欢，看一堆在中国的白人做节目，然后看他们如何夸中国，并请了一堆白人来做广告。

历史都是一种循环，十几年走了日本七十年的过程，也算不错了嘛。东亚中日韩三个民族，虽然彼此互相嫌弃，但骨子里真是一个模子里刻出来的。不可否认，世界上有许多对于日本/中国，感兴趣有好感的欧美人。只不过，许多我们看到的，已经被做成生意了。

如何评价陈丹琦团队新作 Should You Mask 15% in MLM? 的其他答案点击这里

1

相关话题

  为什么Bert中的CLS在未fine tune时作为sentence embedding性能非常糟糕？
  预训练模型的训练任务在 MLM 之外还有哪些有效方式？
  Bert中的词向量各向异性具体什么意思啊？
  为什么Bert中的CLS在未fine tune时作为sentence embedding性能非常糟糕？
  BERT模型可以使用无监督的方法做文本相似度任务吗？
  Bert中的词向量各向异性具体什么意思啊？
  现在的BERT等语言模型，最快训练要多久？
  如何评价陈丹琦团队新作 Should You Mask 15% in MLM?
  如何评价陈丹琦团队新作 Should You Mask 15% in MLM?
  BERT中，multi-head 768*64*12与直接使用768*768矩阵统一计算，有什么区别？

前一个讨论

Bert中的词向量各向异性具体什么意思啊？

下一个讨论

深圳租金持续下跌，有房东主动减租，背后的原因是什么？

相关的话题

  为什么Bert中的CLS在未fine tune时作为sentence embedding性能非常糟糕？
  现在的BERT等语言模型，最快训练要多久？
  如何评价陈丹琦团队新作 Should You Mask 15% in MLM?
  BERT中，multi-head 768*64*12与直接使用768*768矩阵统一计算，有什么区别？
  NLP文本匹配问题的本质是不是对于要预测的句子，遍历候选句子从训练数据集里寻找最相似的pair？
  算法工程师是否应该持续读论文？
  单bert可以用来做文本相似度计算任务吗？
  预训练模型的训练任务在 MLM 之外还有哪些有效方式？
  为什么Bert中的CLS在未fine tune时作为sentence embedding性能非常糟糕？
  假如我穿越到2017年第一个提出了Transformer、BERT等模型，我可以保送到清华北大吗？
  如何评价陈丹琦团队新作 Should You Mask 15% in MLM?
  如何评价陈丹琦团队新作 Should You Mask 15% in MLM?
  为什么 BERT 的 intermediate_size 这么大？
  单bert可以用来做文本相似度计算任务吗？
  为什么 BERT 的 intermediate_size 这么大？
  假如我穿越到2017年第一个提出了Transformer、BERT等模型，我可以保送到清华北大吗？
  Bert中的词向量各向异性具体什么意思啊？
  Bert中的词向量各向异性具体什么意思啊？
  如何评价陈丹琦团队新作 Should You Mask 15% in MLM?
  为什么 BERT 的 intermediate_size 这么大？
  Bert中的词向量各向异性具体什么意思啊？
  如何评价陈丹琦团队新作 Should You Mask 15% in MLM?
  为什么Bert中的CLS在未fine tune时作为sentence embedding性能非常糟糕？
  为什么 Bert 的三个 Embedding 可以进行相加？
  为什么 BERT 的 intermediate_size 这么大？
  BERT中，multi-head 768*64*12与直接使用768*768矩阵统一计算，有什么区别？
  为什么 Bert 的三个 Embedding 可以进行相加？
  NLP文本匹配问题的本质是不是对于要预测的句子，遍历候选句子从训练数据集里寻找最相似的pair？
  假如我穿越到2017年第一个提出了Transformer、BERT等模型，我可以保送到清华北大吗？
  单bert可以用来做文本相似度计算任务吗？

© 2025-06-28 - tinynew.org. All Rights Reserved.
© 2025-06-28 - tinynew.org. 保留所有权利