首页

为什么 BERT 的 intermediate_size 这么大？第1页

1

guotong1988 网友的相关建议:

建议阅读：《Optimal Subarchitecture Extraction for BERT》

为什么 BERT 的 intermediate_size 这么大？的其他答案点击这里

1

相关话题

  如何评价 DeepMind 公司？
  目前有哪些比较成功的人工智能应用？
  反馈控制理论在优化、机器学习等领域有哪些应用？
  transformer中的Q,K,V到底是什么？
  研一，在学机器学习和深度学习，为什么感觉越学越不会，怎么解决这个问题？
  什么是机器学习？
  为什么机器学习解决网络安全问题总是失败?
  人是如何做黑盒优化的？
  有哪些贝叶斯推理入门的书籍？
  为什么说大模型训练很难？

前一个讨论

目标检测该怎么学呀，目前研一，老师啥也不会，感觉毕不了业了？

下一个讨论

多模态训练，怎么解决不同模态之间差异的问题？

相关的话题

  国内哪些公司在用caffe、torch、TensorFlow、paddle等框架，哪些在用自研框架？
  算法岗位真的需要顶会才能入场吗？
  有哪些职业容易被人工智能替代？
  多因子模型是否真的可以带来阿尔法（alpha）？
  《人工智能训练师国家职业技能标准》发布，有哪些值得关注的信息？
  如何评价哈工大的左旺孟老师？
  当前（2020年）机器学习中有哪些研究方向特别的坑？
  强化学习和自适应控制的关系是什么？
  联邦学习在机器学习领域有什么独立存在的价值?
  从应用的角度来看，深度学习怎样快速入门？
  能否对卷积神经网络工作原理做一个直观的解释？
  联邦学习在机器学习领域有什么独立存在的价值?
  学生网络用知识蒸馏损失去逼近教师网络，如何提高学生网络的准确率？
  机器学习最好的课程是什么？
  NLP领域，你推荐哪些综述性的文章？
  如何看待华为 4 月 25 日发布的盘古智能大模型？在这个行业处于什么水平？
  围棋AI为什么没有下出同局？
  深度学习有哪些好玩的案例？
  如何评价哈工大的左旺孟老师？
  GAN:固定训练好的判别器网络，去指导训练生成器为什么不可以？
  研一，在学机器学习和深度学习，为什么感觉越学越不会，怎么解决这个问题？
  面试官如何判断面试者的机器学习水平？
  为什么现在的CNN模型都是在GoogleNet、VGGNet或者AlexNet上调整的？
  如何开发一个自己的 TensorFlow？
  如何解决测试中充斥着大量训练集中没见过的样本类型模型将其识别成非我族类仍然保持测试集的高精度？
  word2vec 相比之前的 Word Embedding 方法好在什么地方？
  如果有第谷的数据，现在的机器学习，深度学习有办法学出开普勒三定律吗？
  深度学习对图像的处理，为什么大多基于RGB，而没有其他色彩空间，比如HSV？
  注意力机制是如何学习到模型所应注意的区域的？
  本科数学，目前在读计算机研一，毕业的时候想要应聘数据挖掘工程师，看了对数据挖掘工程师的招聘要求，感觉太宽泛了，希望能具体说一下现在应该准备哪些知识（算法？编程语言？其他？），谢谢！

© 2025-06-27 - tinynew.org. All Rights Reserved.
© 2025-06-27 - tinynew.org. 保留所有权利