首页
查找话题
首页
为什么 BERT 的 intermediate_size 这么大?
为什么 BERT 的 intermediate_size 这么大? 第1页
1
guotong1988 网友的相关建议:
建议阅读:《Optimal Subarchitecture Extraction for BERT》
为什么 BERT 的 intermediate_size 这么大? 的其他答案 点击这里
1
相关话题
transformer中的Q,K,V到底是什么?
请问人工神经网络中的activation function的作用具体是什么?为什么ReLu要好过于tanh和sigmoid function?
分类机器学习中,某一标签占比太大(标签稀疏),如何学习?
常用的机器学习算法比较?
大四年级,完全没接触过高数,目前对机器学习产生浓厚兴趣,该如何学习数学?
搞机器学习的生环化材是天坑吗?
机器学习系统MLSys中有哪些比较有前途的研究方向?
BERT模型可以使用无监督的方法做文本相似度任务吗?
有哪些可以自学机器学习、深度学习、人工智能的网站?
机器学习最好的课程是什么?
前一个讨论
目标检测该怎么学呀,目前研一,老师啥也不会,感觉毕不了业了?
下一个讨论
多模态训练,怎么解决不同模态之间差异的问题?
相关的话题
如何评价Google发布的第二代深度学习系统TensorFlow?
如何评价 UCLA 朱松纯教授近日访谈中对深度学习的批评?
为什么中文 NLP 数据集这么少?
如何评价PyTorch 0.4.0?
百度学术能否替代 Google 学术网站?有没有其他选择?
基于深度学习的自然语言处理在 2016 年有哪些值得期待的发展?
把某人的 DNA 序列作为输入,正面照片作为输出,丢到深度神经网络里面学习,可行吗?
三门问题(蒙提霍尔悖论)变种,如果主持人不知道哪个门是汽车随便蒙门打开正好是羊这时观众还需要换门吗?
国内较强的NLP高校实验室有哪些?
时间序列和回归分析有什么本质区别?
深度学习在信息安全的应用有哪些可以关注的人或论文?
为什么Transformer适合做多模态任务?
word2vec有什么应用?
如何理解深度学习中的deconvolution networks?
BERT中,multi-head 768*64*12与直接使用768*768矩阵统一计算,有什么区别?
如何评价 MXNet 被 Amazon AWS 选为官方深度学习平台?
为啥gan里面几乎不用pooling?
机器学习到底是什么,如何使用这项技术?
新智元提问:如何看待李飞飞高徒Karpathy加入特斯拉,主管人工智能部门?
如何评价CVPR2019程序主席Derek Hoiem的论点:计算机视觉只是记忆,不是智能?
为什么在实际的kaggle比赛中,GBDT和Random Forest效果非常好?
如何看待 Daniel Povey 离开 JHU 后加入小米?
机器学习算法工程师如何自己接项目单干、并赚取比上班多得多的收入?
机器学习中有哪些形式简单却很巧妙的idea?
从人工智能技术的角度如何评价 Google home、Amazon Echo、Rokid 这三款产品?
用生成模型做数据增强data augmentation时,如何从合成数据中筛选出质量较好的样本?
CTC和Encoder-Decoder有什么关系?
深度学习和强化学习之间的差别有多大?
如何评价FAIR提出的ConvNeXt:CNN匹敌Swin Transformer?
有哪些优秀的深度学习入门书籍?需要先学习机器学习吗?
服务条款
联系我们
关于我们
隐私政策
© 2025-06-06 - tinynew.org. All Rights Reserved.
© 2025-06-06 - tinynew.org. 保留所有权利