首页
查找话题
首页
为什么 BERT 的 intermediate_size 这么大?
为什么 BERT 的 intermediate_size 这么大? 第1页
1
guotong1988 网友的相关建议:
建议阅读:《Optimal Subarchitecture Extraction for BERT》
为什么 BERT 的 intermediate_size 这么大? 的其他答案 点击这里
1
相关话题
深度学习方面还有什么Open Problem?
双非小硕一枚 能否从事机器学习?
反馈控制理论在通信、信号处理等领域有哪些应用?
如何进行图像模糊与清晰的分类?
深度学习调参有哪些技巧?
如何评价Kaiming He团队的MoCo v3?
LSTM如何来避免梯度弥散和梯度爆炸?
resnet(残差网络)的F(x)究竟长什么样子?
写深度学习代码是先写model还是dataset还是train呢,有个一般化的顺序吗?
AI(或者说神经网络/深度学习)能够实现科学(尤其是物理学)研究中提出假设这一步嘛?
前一个讨论
目标检测该怎么学呀,目前研一,老师啥也不会,感觉毕不了业了?
下一个讨论
多模态训练,怎么解决不同模态之间差异的问题?
相关的话题
如何看待NIPS2017图灵奖得主贝叶斯网络之父Judea Pearl讲座无人问津?
如何评价 Self-Normalizing Neural Networks 这篇论文?
知识图谱+nlp,有什么适合硕士独自研究的方向?
用生成模型做数据增强data augmentation时,如何从合成数据中筛选出质量较好的样本?
我决定进军期货市场,您有什么建议吗?
如何评价Google最新提出的gMLP:MLP模型在CV和NLP任务上均取得较好的效果?
在Auto ML的冲击下,ML算法人员是否会在前者成熟后失业的情况?
即时战略游戏(比如 WAR3)的 AI 是怎样实现的?
graph convolutional network有什么比较好的应用task?
为什么最近几年 FPGA 变得越发受大家重视了?
机器学习中有哪些形式简单却很巧妙的idea?
如何评价B站UP主未明子宣称“知乎搞机器学习模拟拉康的程序员”具备“头脑上的悲剧”?
请问机器学习中的预测与决策的区别是什么,他们的界限在哪里呢?
假如我穿越到2017年第一个提出了Transformer、BERT等模型,我可以保送到清华北大吗?
有谁照着论文把 AlphaGo 重现出来了?
NLP领域,你推荐哪些综述性的文章?
什么是人工智能?人工智能、机器学习、深度学习三者之间有什么关系吗?
编程达到什么水平才能编写出像caffe这样的深度学习框架?
caffe开发过程中使用了哪些工具?
为什么在R语言里多用<-而不是=表示赋值?
Kaggle如何入门?
xgboost原理?
神经网络的损失函数为什么是非凸的?
如何评价《Science》封面文章《通过概率规划归纳的人类层次概念学习》?
现有的编程语言当中,哪些和自然语言更接近?
为什么softmax很少会出现[0.5,0.5]?
支持向量机(SVM)是什么意思?
如何评价 Exploring Simple Siamese Learning?
如何证明马尔科夫链一定会达到稳态?
如何评价清华大学发布的自研深度学习框架-计图(Jittor)?
服务条款
联系我们
关于我们
隐私政策
© 2025-05-16 - tinynew.org. All Rights Reserved.
© 2025-05-16 - tinynew.org. 保留所有权利