首页

现在的BERT等语言模型，最快训练要多久？第1页

1

su-jian-lin-22 网友的相关建议:

首先明确一个结论：预训练成本基本上是不可能降的。

怎么理解这句话呢？大概就是说你要达到RoBERTa base的效果，那么就必须付出大致相当于训练RoBERTa base的算力，就算你把Self Attention换成CNN、RNN、MLP都是这样，因为Transformer之所以慢，是因为它大，而不是因为它有Self Attention（参考《线性Transformer应该不是你要等的那个模型》）；而预训练模型效果之所以好，是因为它在大模型的基础上预训练，所以大是必要条件。

有了这个结论后，你想提高训练速度，就只有三个选择：1、选择更小的模型（比如small、tiny）；2、买更快的卡（比如80G的A100）；3、减少训练数据。

前两者好理解，第三个选择，主要是因为预训练数据到了一定数量之后，“质量”就重于“数量”了，如果别人用100G通用数据训练，你能挑出10G高质量数据训练，速度就快了10倍，说不准效果还更好。这个“高质量”有两个含义，第一个是数据本身的噪声要少，第二个就是跟你所要做的下游任务的相关性。这方面的工作，推荐看杨植麟大佬最近的《NLP From Scratch Without Large-Scale Pretraining: A Simple and Efficient Framework》

当然，框架本身的调整（比如混合精度训练）也能带来一定的速度提升，但这不在本回答的考虑范围内（或者说，框架本身的优化默认都打开）。

现在的BERT等语言模型，最快训练要多久？的其他答案点击这里

1

相关话题

  如何评价周志华教授新提出的 Deep Forest 模型，它会取代当前火热的深度学习 DNN 吗？
  如何看待Yoav Goldberg 怒怼来自MILA的GAN for NLG的paper?
  如何理解深度学习中的deconvolution networks？
  注意力机制是如何学习到模型所应注意的区域的？
  如何评价 UCLA 朱松纯教授近日访谈中对深度学习的批评？
  在机器学习中，L2正则化为什么能够缓过拟合？
  反馈控制理论在通信、信号处理等领域有哪些应用？
  如何看待鄂维南院士等发起的机器学习联合研讨计划（c2sml.cn）？
  如果用机器学习的理论来理解人的行为，会有什么发现？
  如何理解attention中的Q,K,V？

前一个讨论

你见过哪些怪异的量化交易策略？

下一个讨论

有哪些效果拔群的 WebAssembly 应用？

相关的话题

  算法岗位真的需要顶会才能入场吗？
  caffe开发过程中使用了哪些工具？
  如何评价微软提出的无监督视觉模型BEiT：ImageNet达到88.6，ADE20K达到57.0？
  用 Python 进行数据分析，不懂 Python，求合适的 Python 书籍或资料推荐？
  如何评价 CVPR 2020的论文接收结果？有哪些亮点论文？
  应届硕士毕业生如何拿到知名互联网公司算法岗（机器学习、数据挖掘、深度学习） offer？
  NLP文本匹配问题的本质是不是对于要预测的句子，遍历候选句子从训练数据集里寻找最相似的pair？
  近几年有哪些关于机器学习中隐私（Privacy）和安全（Security）相关的研究值得关注?
  如何评价浪潮发布的2457亿参数源1.0智能大模型？与GPT-3相比如何？处于AI模型领域什么水平？
  人工智能就业前景越来越严峻了，你还在坚持吗？
  机器学习中常常提到的正则化到底是什么意思？
  机器学习如何才能避免「只是调参数」？
  为啥gan里面几乎不用pooling？
  广告算法工程师的核心竞争力是什么？
  自监督学习（Self-supervised Learning）有什么比较新的思路？
  国内做NLP业务的香侬科技值得去吗？
  请问一下，机器学习领域的联邦学习技术，目前看到最多的是微众银行，国内还有哪些顶级专家及机构和大学？
  BERT中，multi-head 768*64*12与直接使用768*768矩阵统一计算，有什么区别？
  CPU和GPU跑深度学习差别有多大？
  如何评价AWS的图神经网络框架DGL？
  去美国读CS博士，方向是机器人导航，视觉方面，推荐一下相关编程方面准备？还有相关算法需要学习哪些？
  如何评价英伟达于 GTC 2021 大会发布的基于 ARM 架构的 Grace CPU？
  自然语言处理怎么最快入门？
  NLP文本匹配问题的本质是不是对于要预测的句子，遍历候选句子从训练数据集里寻找最相似的pair？
  如何看待End-to-End Object Detection with Transformers？
  为什么做GPU计算，深度学习用amd显卡的很少，基本都nvidia？
  让人工智能去下路边街头的象棋残局会赢吗？
  2020到2021年小样本学习取得重大进展了吗？
  为什么 Google 翻译只重算法不重语言学的语法结构和规则？
  GAN 真的创造了新的信息吗？

© 2025-06-17 - tinynew.org. All Rights Reserved.
© 2025-06-17 - tinynew.org. 保留所有权利