百科问答小站 logo
百科问答小站 font logo



为什么有的 Vision Transformer 中的 key 不需要 bias ? 第1页

  

user avatar   donglixp 网友的相关建议: 
      

加和不加从结果上是等价的,BEiT在实现中去掉是为了fp16训练过程中数值稳定。

Both (i.e., with or without key.bias) are equivalent in terms of calculation results. They are canceled by the softmax function.

Softmax(q,k) = exp(q.weight * key.weight + q.bias * key.weight + q.weight * key.bias + q.bias * key.bias) / Z

Because the query is the same over all the keys, so the term (q.weight * key.bias + q.bias * key.bias) remains the same across all the keys, which in turn can be cancelled without affecting the softmax results.

exp(a)/(exp(a)+ exp(b)) == exp(a+C)/(exp(a+C)+ exp(b+C))


user avatar   tylin98 网友的相关建议: 
      

女王:求求题主放过我,我可不敢有什么政绩。。。




  

相关话题

  如何看待Meta(恺明)最新论文ViTDet:只用ViT做backbone(不使用FPN)的检测模型? 
  C 如何编译出一个不需要操作系统的程序? 
  为什么 CPU 需要时钟才能工作? 
  有没有你觉得很好的,国人写计算机类书籍,推荐一些吧? 
  如果推出一款有「滤镜」功能的写作软件,修饰平庸的文字,会有市场吗? 
  为什么苏联打下了如此强的数学基础,俄罗斯却至今无法成为AI强国? 
  现行条件下是否真的无法完全抹除已在电子设备上删除的信息? 
  世界上有没有大于 100MB 的图片? 
  西方学习编程的学生训练打代码时每年要敲坏多少个键盘? 
  【美本】家人们!!毕业想留美工作 硅谷圣塔克拉拉大学文理学院CS和UIUC工院CS选哪个? 

前一个讨论
为什么Transformer适合做多模态任务?
下一个讨论
20 年前的今天,中国正式加入世贸组织,20 年来为我们带来了哪些变化?





© 2025-03-26 - tinynew.org. All Rights Reserved.
© 2025-03-26 - tinynew.org. 保留所有权利