首页
查找话题
首页
为什么 BERT 的 intermediate_size 这么大?
为什么 BERT 的 intermediate_size 这么大? 第1页
1
guotong1988 网友的相关建议:
建议阅读:《Optimal Subarchitecture Extraction for BERT》
为什么 BERT 的 intermediate_size 这么大? 的其他答案 点击这里
1
相关话题
如何看待人工智能领域的很多专家认为「人工智能将对人类存亡造成威胁」的观点?
如何用一句话证明自然语言处理很难?
如何看待多所 985 大学开设人工智能专业?
graph convolutional network有什么比较好的应用task?
主动学习(Active Learning)近几年的研究有哪些进展,现在有哪些代表性成果?
为啥gan里面几乎不用pooling?
机器学习中常常提到的正则化到底是什么意思?
双非小硕一枚 能否从事机器学习?
在哪里能找到各行业的分析研究报告?
使用强化学习解决实际问题时常常避不开环境模拟或者使用离线强化学习算法,两者分别有什么优缺点?
前一个讨论
目标检测该怎么学呀,目前研一,老师啥也不会,感觉毕不了业了?
下一个讨论
多模态训练,怎么解决不同模态之间差异的问题?
相关的话题
机器学习如何才能避免「只是调参数」?
如何评价1700亿参数的GPT-3?
NLP 中 prompt learning 有哪些可能的天生缺陷?目前有什么样的方法来解决这样的缺陷?
pytorch dataloader数据加载占用了大部分时间,各位大佬都是怎么解决的?
欧洲有哪些统计机器学习比较强的大学或者研究院的??
god bless us 为什么百度翻译是辛巴?
现在的人工智能是否走上了数学的极端?
机器学习自嘲的炼丹和化学材料自嘲的炒菜有什么本质上的区别?
在文本分类任务中,有哪些论文中很少提及却对性能有重要影响的tricks?
scikit-learn, tensorflow, pytorch真的只需要查下API,不需要学吗?
硕士方向,选择迁移学习还是自然语言处理?
2020-2021年NLP有什么核心技术的更迭吗?或者有什么推动领域发展的paper吗?
强化学习和自适应控制的关系是什么?
如果有第谷的数据,现在的机器学习,深度学习有办法学出开普勒三定律吗?
为什么神经网络具有泛化能力?
Evidential deep learning里一般怎么估计多标签分类的Uncertainty?
在机器学习中,L2正则化为什么能够缓过拟合?
2020到2021年小样本学习取得重大进展了吗?
当初的生物热,和如今的全民CS全民AI,让你想到了什么?
如何看待在某度搜不到megengine官网?
实体提取任务中使用BERT-CRF时,CRF根据数据统计可以得到转移概率,为啥还要训练呢?
如何评价Google最新提出的gMLP:MLP模型在CV和NLP任务上均取得较好的效果?
机器学习算法工程师如何自己接项目单干、并赚取比上班多得多的收入?
如何评价 BERT 模型?
是否有可能使用人工智能在高原、戈壁和沙漠中进行工业生产?
如何看待Hinton的论文《Dynamic Routing Between Capsules》?
人工智能可以为人类找寻他们心目中的另一半吗?
什么是博弈机器学习?
如何评价 Exploring Simple Siamese Learning?
如何看待swin transformer成为ICCV2021的 best paper?
服务条款
联系我们
关于我们
隐私政策
© 2025-03-25 - tinynew.org. All Rights Reserved.
© 2025-03-25 - tinynew.org. 保留所有权利