我们最近也尝试做了些预训练的工作,发现预训练并没有想象中容易。以前看RoBERTa、T5、ALBERT的论文不觉得有什么实质的改进,论文读起来也是一扫而过。但在我们做预训练之后才发现这几篇论文的信息量很大,值得反复品味。在Switch Transformer出来之前,我们也想尝试用动态路由去做稀疏化的基础架构,但是发现对工程实现能力要求很高,简单尝试下后放弃了。
我们的科研环境太强调创新性反而忽略了基础工具、框架、模型建设的重要性。如果有个人写个项目申请说要复现下matlab,肯定会被拍死,因为没有创新性。对于清华的学生来说,发一篇AI领域的顶会论文容易,但是想做这些基础性的工作并不那么容易。我们看过他们的开源代码,工程能力极强。另外,智源的这些大模型还是有不少创新在里面的。
总之,我觉得目前在中文(甚至是英文)领域继续做预训练模型还是有很大的意义,一方面是很重要,另一方面是有需求才会带动更多这方面的人才,而这些人才是我们目前非常欠缺的。此外,大模型还有可能会推动更底层的基础设施的发展,比如国产深度学习框架、国产GPU。但是不建议做了预训练之后还去卷GLUE、CLUE这些评测了,这些评测已经变成调参技巧的比拼,反而更应该关注评测大模型能力方面的创新,比如效率,易用性,对数据质量数量的需求等,就像GPT3一直强调它是few-shot learner那样。
利益相关,悟道团队成员。
不知道动了楼上您哪位的蛋糕?蓄意引导的是你吧?
如此利用已有开源成果虚假宣传、过度“包装”会极大挤压其他踏实创新的人,对整体的学术环境极其不利。
这里的已有开源成果,都是我们悟道团队自己研发,在那次发布会上发布开源的,宣传自己的成果有啥问题?故意引导读者感觉像是剽窃他人的一样,其心可诛。
所谓“踏实创新”的人,到底是悟道团队辛苦的研发人员呢?还是躲在这匿名自问自答还筛选评论尬黑的人呢?
至于榜单和巨模型的关系,这些榜单都是悟道团队(也不单是唐老师)共同刷的不单单是巨模型,唐老师作为总负责人介绍而已,自己不认真听搁着故意尬黑有意思吗?
用清华邮箱申请不到gpt-3的api权限,那就只好自己弄一个更好的了呗……
u1s1, 做 PLM(预训练模型,以下特指大模型)的 Pre-training 和 fine-tuning/prompting 有很大不同。Pre-training 并不是一条传统的“研究创新”(survey、idea、implementation、experiment、paper)路径,在这其中关键的贡献也并不是有 architecture, objective 看上去有多么 novel,毕竟这两个方向已经很久没有突破性的工作了。
Pre-training 最大的挑战是,工程量特别大,data、infra、hardware,都没法直接从GitHub上照搬。更难的是组建这种团队需要CS各方面的人才,国内没有 OpenAI, FAIR, Google Brain 这样的团队,清华不做,那就指望马云和马化腾了?(我没有在黑北大)。感兴趣的可以去看看 GPT-3 paper 的 8 Contribution 章节,那里面列出的每个人的工作可能都没法达到大家“足够发paper”的标准,但如果没有这些就没有 GPT-3。
就算是 ML 研究里通常最容易获得的开源代码,Pre-training (大模型)领域的开源实践也非常堪忧。GPT-3 本身开源了个寂寞,API 又贵的要死,就算是在英文社区也有很多复现 GPT 的工作(https://github.com/EleutherAI/gpt-neo, https://github.com/karpathy/minGPT),搞个中文的并且效果还不错,为啥就要被黑。。假如有一天英文的AI通过了图灵测试,中文的迟迟没有,那感觉不是跟国外了发布iPhone 13,普通中国人还只能用诺基亚一样吗?