百科问答小站 logo
百科问答小站 font logo



清华唐杰团队研发 NLP 预训练模型有哪些实际意义? 第1页

  

user avatar   xpqiu 网友的相关建议: 
      

我们最近也尝试做了些预训练的工作,发现预训练并没有想象中容易。以前看RoBERTa、T5、ALBERT的论文不觉得有什么实质的改进,论文读起来也是一扫而过。但在我们做预训练之后才发现这几篇论文的信息量很大,值得反复品味。在Switch Transformer出来之前,我们也想尝试用动态路由去做稀疏化的基础架构,但是发现对工程实现能力要求很高,简单尝试下后放弃了。

我们的科研环境太强调创新性反而忽略了基础工具、框架、模型建设的重要性。如果有个人写个项目申请说要复现下matlab,肯定会被拍死,因为没有创新性。对于清华的学生来说,发一篇AI领域的顶会论文容易,但是想做这些基础性的工作并不那么容易。我们看过他们的开源代码,工程能力极强。另外,智源的这些大模型还是有不少创新在里面的。

总之,我觉得目前在中文(甚至是英文)领域继续做预训练模型还是有很大的意义,一方面是很重要,另一方面是有需求才会带动更多这方面的人才,而这些人才是我们目前非常欠缺的。此外,大模型还有可能会推动更底层的基础设施的发展,比如国产深度学习框架、国产GPU。但是不建议做了预训练之后还去卷GLUE、CLUE这些评测了,这些评测已经变成调参技巧的比拼,反而更应该关注评测大模型能力方面的创新,比如效率,易用性,对数据质量数量的需求等,就像GPT3一直强调它是few-shot learner那样。


user avatar    网友的相关建议: 
      

利益相关,悟道团队成员。

不知道动了楼上您哪位的蛋糕?蓄意引导的是你吧?

如此利用已有开源成果虚假宣传、过度“包装”会极大挤压其他踏实创新的人,对整体的学术环境极其不利。

这里的已有开源成果,都是我们悟道团队自己研发,在那次发布会上发布开源的,宣传自己的成果有啥问题?故意引导读者感觉像是剽窃他人的一样,其心可诛。

所谓“踏实创新”的人,到底是悟道团队辛苦的研发人员呢?还是躲在这匿名自问自答还筛选评论尬黑的人呢?

至于榜单和巨模型的关系,这些榜单都是悟道团队(也不单是唐老师)共同刷的不单单是巨模型,唐老师作为总负责人介绍而已,自己不认真听搁着故意尬黑有意思吗?


user avatar   rewrgf 网友的相关建议: 
      

用清华邮箱申请不到gpt-3的api权限,那就只好自己弄一个更好的了呗……


user avatar    网友的相关建议: 
      

u1s1, 做 PLM(预训练模型,以下特指大模型)的 Pre-training 和 fine-tuning/prompting 有很大不同。Pre-training 并不是一条传统的“研究创新”(survey、idea、implementation、experiment、paper)路径,在这其中关键的贡献也并不是有 architecture, objective 看上去有多么 novel,毕竟这两个方向已经很久没有突破性的工作了。

Pre-training 最大的挑战是,工程量特别大,data、infra、hardware,都没法直接从GitHub上照搬。更难的是组建这种团队需要CS各方面的人才,国内没有 OpenAI, FAIR, Google Brain 这样的团队,清华不做,那就指望马云和马化腾了?(我没有在黑北大)。感兴趣的可以去看看 GPT-3 paper 的 8 Contribution 章节,那里面列出的每个人的工作可能都没法达到大家“足够发paper”的标准,但如果没有这些就没有 GPT-3。

就算是 ML 研究里通常最容易获得的开源代码,Pre-training (大模型)领域的开源实践也非常堪忧。GPT-3 本身开源了个寂寞,API 又贵的要死,就算是在英文社区也有很多复现 GPT 的工作(github.com/EleutherAI/g, github.com/karpathy/min),搞个中文的并且效果还不错,为啥就要被黑。。假如有一天英文的AI通过了图灵测试,中文的迟迟没有,那感觉不是跟国外了发布iPhone 13,普通中国人还只能用诺基亚一样吗?




  

相关话题

  走了清华土木(提前批),真的像人们说的那样钱途黑暗,天坑冷门,没有出路吗? 
  如何评价中科院合肥物质科学研究院的改革创举? 
  如何看待华为 P50 Pro 不支持 5G、不送充电器,却敢卖到 7488 元? 
  快毕业了,导师让留在组里做博后,海归满天飞,不知道现在国内做博后还有没有前途啊? 
  如何评价 7 月 29 日发布的华为 P50 系列手机? 
  生物领域的学术造假情况较为突出吗? 
  特斯拉案终审败诉,因欺诈消费者被判退一赔三,你怎么看? 
  现在怎么不听大神们说华为方舟编译器了? 
  怎样判断一位教授的科研水平与他在所处领域的地位? 
  为什么在美国顶尖大学 tenure-track(终身制)教职非常难拿? 

前一个讨论
为什么智商的数值与脑和躯体质量的比值有关?
下一个讨论
如何看待巨量引擎提出的“新搜索”概念?





© 2024-12-18 - tinynew.org. All Rights Reserved.
© 2024-12-18 - tinynew.org. 保留所有权利