首页

为什么 BERT 的 intermediate_size 这么大？第1页

1

guotong1988 网友的相关建议:

建议阅读：《Optimal Subarchitecture Extraction for BERT》

为什么 BERT 的 intermediate_size 这么大？的其他答案点击这里

1

相关话题

  有监督和无监督学习都各有哪些有名的算法和深度学习？
  如何看待 AlphaFold 在蛋白质结构预测领域的成功？
  如何看待斯坦福博士生2prime陆一平关于新冠起源的一系列言论？
  scikit-learn, tensorflow, pytorch真的只需要查下API，不需要学吗?
  为什么现在很多人不看好商汤科技？
  如何看待谷歌研究人员提出的卷积正则化方法「DropBlock」？
  人工智能会是泡沫吗？
  如何看待Yoav Goldberg 怒怼来自MILA的GAN for NLG的paper?
  请问应该怎样去学习图像识别和深度学习？
  transformer中的Q,K,V到底是什么？

前一个讨论

目标检测该怎么学呀，目前研一，老师啥也不会，感觉毕不了业了？

下一个讨论

多模态训练，怎么解决不同模态之间差异的问题？

相关的话题

  在迁移学习中，只有fine-tune和基于实例的迁移可用在小样本上吗，还有其他的小样本迁移方法吗？
  人工智能顶会的best paper，后来都怎么样了？
  如何将某个分布作为机器学习的特征？
  如何看待 Larrabee 之父 Tom Forsyth 重加入 Intel？英特尔为何下注独立显卡？
  如何看待在某度搜不到megengine官网？
  BERT可以用于文本聚类吗?
  深度学习attention机制中的Q,K,V分别是从哪来的？
  2021 年了，机器/深度学习还有哪些坑比较好挖？
  如何评价微软亚洲研究院提出的LightRNN？
  金融学及金融从业者如何应对人工智能和大数据？
  c4.5为什么使用信息增益比来选择特征？
  如何看待Transformer在CV上的应用前景，未来有可能替代CNN吗？
  Yoshua Bengio为什么能跟Hinton、LeCun相提并论？？
  NLP 中 prompt learning 有哪些可能的天生缺陷？目前有什么样的方法来解决这样的缺陷？
  视觉算法的工业部署及落地方面的技术知识，怎么学？
  医学生学习机器学习该如何入门？
  有哪些定理在高维情况下与三维情况下培养出来的直觉不符？
  视觉Transformer如何优雅地避开位置编码？
  关于tensorflow中的滑动平均？
  如何把梯度传递过Argmax?
  如何看待MXNet获得amazon官方支持首位？
  AI领域的灌水之风如何破局？
  使用强化学习解决实际问题时常常避不开环境模拟或者使用离线强化学习算法，两者分别有什么优缺点？
  为什么Transformer要用LayerNorm？
  NLP文本分类的本质是不是其实是找相似，对于要分类的句子，在训练集里找最相似的句子？
  Google 的神经网络生成图像 (Inceptionism) 是怎么做到的？
  消融实验是什么？
  机器学习包含哪些学习思想？
  AMD的CPU是否适合搭建深度学习主机？
  2020年，多标签学习（multi-label）有了哪些新的进展？

© 2025-06-27 - tinynew.org. All Rights Reserved.
© 2025-06-27 - tinynew.org. 保留所有权利