首页

为什么计算注意力机制的时候不加偏置项？第1页

1

mlxue-xi 网友的相关建议:

1）注意力机制是需要计算目标item和序列中每一个item的，指数形式下增加bias，没有意义。

2）softmax权重分配存在赢者通吃，极其容易饱和，增加bias将加剧现象。所以在推荐中常常改为sigmoid函数，让权重平滑。

3）其次，增加参数，增大学习难度。

并非所有的设计都要遵循大众设计，遵循公式，要思考这样的因子可以不加吗，不加会不会更好，是不是原来的就也不需要加，加了为啥好，为啥不好。今天还看到了一篇论文在序列中加了零向量，那么在目标与序列完全无关的时候，模型attened到这个零向量即可，不会强制关注这个序列，不会引入额外的噪声。很巧妙的设计思路，当然这样的设计思路是来源于业务的理解，不是所有的业务都需要这样处理。因此，学会在合适的场景做合适的设计修改，往往产生不错的return。

tylin98 网友的相关建议:

女王:求求题主放过我，我可不敢有什么政绩。。。

为什么计算注意力机制的时候不加偏置项？的其他答案点击这里

1

相关话题

  如何看待 2014 年以来计算机视觉（Computer Vision）界创业潮？
  在实际工程系统中，MPC太复杂，难以做到realtime。因此都利用数据，MPC对比RL还有优势么?
  2021年人工智能领域有哪些关键性进展和突破？
  如何激怒一位人工智能（机器学习、深度学习、强化学习等）爱好者？
  视觉算法的工业部署及落地方面的技术知识，怎么学？
  如果有第谷的数据，现在的机器学习，深度学习有办法学出开普勒三定律吗？
  计算机视觉顶级会议论文中比较适合初学计算机视觉的人做的复现实验有哪些？
  cv/nlp等方向的就业困难是全球性的吗？
  消融实验是什么？
  如何评价最近火热的对比学习，会引领预训练模型新的范式嘛?

前一个讨论

云南滇中新区发布「聚才计划」，最高给予 600 万元补助，这透露出哪些有价值的信息点？

下一个讨论

男方家境不好真的不能嫁嘛？?

相关的话题

  在NLP当中，不同的评价指标，BLEU, METEOR, ROUGE和CIDEr的逻辑意义？
  为什么中文 NLP 数据集这么少？
  国内外有哪些做小样本学习(Few-Shot Learning)的优秀团队？
  计算商品embedding然后平均得到用户embedding，会不会存在这种问题？
  二分类问题，应该选择sigmoid还是softmax？
  为何感觉“知识蒸馏”这几年没有什么成果？
  adversarial training为什么会起作用？
  请问刘知远老师提供的网易新闻标注数据集开源吗？
  神经网络的损失函数为什么是非凸的?
  有哪些关于机器学习的真相还鲜为人知？
  什么是meta-learning?
  计算机视觉和自然语言处理，哪个更具有发展前景呢，还是各有千秋呢？
  如何评价谷歌用30亿数据训练的20亿参数ViT-G/14模型在 ImageNet 达到新的 SOTA？
  如何评价 Face++ 旷视科技最新出品的检测专用 backbone 网络 DetNet ？
  现在互联网公司还有做特征工程的工作吗？
  如何评价Google最新提出的gMLP：MLP模型在CV和NLP任务上均取得较好的效果？
  如何评价旷视开源的YOLOX，效果超过YOLOv5?
  机器学习如何才能避免「只是调参数」？
  如何评价Google最新提出的gMLP：MLP模型在CV和NLP任务上均取得较好的效果？
  如何评价生成模型框架 ZhuSuan?
  深度学习如何入门？
  计算机视觉顶级会议论文中比较适合初学计算机视觉的人做的复现实验有哪些？
  如何看待Transformer在CV上的应用前景，未来有可能替代CNN吗？
  刚进算法团队，大牛们讨论高深的cv术语和算法，如何才能听懂？
  如何看待阿里巴巴提出的 FashionAI 比赛？
  为何以范剑青老师的 Sure Independence Screening 为代表的筛选法没有流行呢？
  没有顶会的CV/NLP方向的博士生毕业出路在哪里？
  2021年，ncnn发展的如何了？
  2019年，计算机视觉领域，你推荐哪些综述性的文章？
  2021 年，深度学习方面取得了哪些关键性进展？

© 2025-06-15 - tinynew.org. All Rights Reserved.
© 2025-06-15 - tinynew.org. 保留所有权利