百科问答小站 logo
百科问答小站 font logo



现在的BERT等语言模型,最快训练要多久? 第1页

  

user avatar   su-jian-lin-22 网友的相关建议: 
      

首先明确一个结论:预训练成本基本上是不可能降的。

怎么理解这句话呢?大概就是说你要达到RoBERTa base的效果,那么就必须付出大致相当于训练RoBERTa base的算力,就算你把Self Attention换成CNN、RNN、MLP都是这样,因为Transformer之所以慢,是因为它大,而不是因为它有Self Attention(参考《线性Transformer应该不是你要等的那个模型》);而预训练模型效果之所以好,是因为它在大模型的基础上预训练,所以大是必要条件。

有了这个结论后,你想提高训练速度,就只有三个选择:1、选择更小的模型(比如small、tiny);2、买更快的卡(比如80G的A100);3、减少训练数据。

前两者好理解,第三个选择,主要是因为预训练数据到了一定数量之后,“质量”就重于“数量”了,如果别人用100G通用数据训练,你能挑出10G高质量数据训练,速度就快了10倍,说不准效果还更好。这个“高质量”有两个含义,第一个是数据本身的噪声要少,第二个就是跟你所要做的下游任务的相关性。这方面的工作,推荐看杨植麟大佬最近的《NLP From Scratch Without Large-Scale Pretraining: A Simple and Efficient Framework》

当然,框架本身的调整(比如混合精度训练)也能带来一定的速度提升,但这不在本回答的考虑范围内(或者说,框架本身的优化默认都打开)。




  

相关话题

  当前(2020年)机器学习中有哪些研究方向特别的坑? 
  人工智能可以为人类找寻他们心目中的另一半吗? 
  如何评价周志华教授新提出的 Deep Forest 模型,它会取代当前火热的深度学习 DNN 吗? 
  为什么小模型已经可以很好地拟合数据集了,换大模型效果却要比小模型好? 
  如何评价移动端吊打一切万众期待的商汤深度学习推理框架PPL开源了却没有支持移动端? 
  人工智能已在哪些领域超越了人类的表现? 
  国内 top2 高校研一在读,为什么感觉深度学习越学越懵? 
  NLP文本分类的本质是不是其实是找相似,对于要分类的句子,在训练集里找最相似的句子? 
  如何看待亚马逊的无人超市产品 Amazon Go? 
  为什么我用相同的模型,数据,超参,随机种子,在两台服务器会得到不同的结果? 

前一个讨论
你见过哪些怪异的量化交易策略?
下一个讨论
有哪些效果拔群的 WebAssembly 应用?





© 2025-04-17 - tinynew.org. All Rights Reserved.
© 2025-04-17 - tinynew.org. 保留所有权利