首页

为什么计算注意力机制的时候不加偏置项？第1页

1

mlxue-xi 网友的相关建议:

1）注意力机制是需要计算目标item和序列中每一个item的，指数形式下增加bias，没有意义。

2）softmax权重分配存在赢者通吃，极其容易饱和，增加bias将加剧现象。所以在推荐中常常改为sigmoid函数，让权重平滑。

3）其次，增加参数，增大学习难度。

并非所有的设计都要遵循大众设计，遵循公式，要思考这样的因子可以不加吗，不加会不会更好，是不是原来的就也不需要加，加了为啥好，为啥不好。今天还看到了一篇论文在序列中加了零向量，那么在目标与序列完全无关的时候，模型attened到这个零向量即可，不会强制关注这个序列，不会引入额外的噪声。很巧妙的设计思路，当然这样的设计思路是来源于业务的理解，不是所有的业务都需要这样处理。因此，学会在合适的场景做合适的设计修改，往往产生不错的return。

tylin98 网友的相关建议:

女王:求求题主放过我，我可不敢有什么政绩。。。

为什么计算注意力机制的时候不加偏置项？的其他答案点击这里

1

相关话题

  为什么ViT里的image patch要设计成不重叠？
  目前有哪些比较成功的人工智能应用？
  能分享你收藏的国外AI talk, seminar平台或网站吗？
  如何评价 Face++ 旷视科技最新出品的检测专用 backbone 网络 DetNet ？
  神经网络训练多个epoch，写论文的时候可以取最好的效果那一个epoch作为结果吗？
  国内 top2 高校研一在读，为什么感觉深度学习越学越懵?
  学习SLAM需要哪些预备知识？
  深度学习图像处理什么时候用到GPU？
  2019年CVPR有哪些糟糕的论文?
  为什么要压缩模型，而不是直接训练一个小的CNN？

前一个讨论

云南滇中新区发布「聚才计划」，最高给予 600 万元补助，这透露出哪些有价值的信息点？

下一个讨论

男方家境不好真的不能嫁嘛？?

相关的话题

  如何看待 Google 围棋 AI AlphaGo 击败欧洲围棋冠军？
  给男友配置一个适合做深度学习的电脑要多少钱？
  如何评价 Kaiming 团队新作 Masked Autoencoders (MAE)？
  消融实验是什么？
  如何看待NVIDIA 即将开源的DLA？
  你所在的研究领域里，有哪些工作的结果虽然不是造假，但是是精挑细选出来的?
  NLP领域，你推荐哪些综述性的文章？
  CNN（卷积神经网络）、RNN（循环神经网络）、DNN（深度神经网络）的内部网络结构有什么区别？
  面试官如何判断面试者的机器学习水平？
  行为识别常用哪种特征提取？
  人工智能退潮期来了吗？
  能否搜索某视频的其中一帧画面？或者通过一张图片搜索此图来自哪个视频？
  为什么计算注意力机制的时候不加偏置项？
  如何评价 BERT 模型？
  哪些人工智能领域已经或者未来1-2年会实现盈利？
  反馈控制理论在优化、机器学习等领域有哪些应用？
  CPU和GPU跑深度学习差别有多大？
  2022 年人工智能领域的发展趋势是什么？你都有哪些期待？
  如何评价 7 月 31 日一流科技开源的深度学习框架 OneFlow？
  Resnet到底在解决一个什么问题呢？
  有哪些人工智能上的事实，没有一定人工智能知识的人不会相信？
  计算机视觉中，目前有哪些经典的目标跟踪算法？
  如何看待马毅教授在国内评不上杰青？
  2020-2021年NLP有什么核心技术的更迭吗？或者有什么推动领域发展的paper吗？
  如何用自然语言处理判断一句话是否符合中文口语习惯？
  OpenCV已经将图像处理(识别)的算法写成函数了,那我们还有必要去学习这些算法不?
  什么是人工智能？人工智能、机器学习、深度学习三者之间有什么关系吗？
  为什么CV能做到让一幅人脸图动了笑了，而NLP的text-style-transfer进展貌似一般？
  自然语言处理是计算机实现通用人工智能的最难挑战吗？
  注意力机制是如何学习到模型所应注意的区域的？

© 2025-06-15 - tinynew.org. All Rights Reserved.
© 2025-06-15 - tinynew.org. 保留所有权利