百科问答小站 logo
百科问答小站 font logo



为什么有的 Vision Transformer 中的 key 不需要 bias ? 第1页

  

user avatar   donglixp 网友的相关建议: 
      

加和不加从结果上是等价的,BEiT在实现中去掉是为了fp16训练过程中数值稳定。

Both (i.e., with or without key.bias) are equivalent in terms of calculation results. They are canceled by the softmax function.

Softmax(q,k) = exp(q.weight * key.weight + q.bias * key.weight + q.weight * key.bias + q.bias * key.bias) / Z

Because the query is the same over all the keys, so the term (q.weight * key.bias + q.bias * key.bias) remains the same across all the keys, which in turn can be cancelled without affecting the softmax results.

exp(a)/(exp(a)+ exp(b)) == exp(a+C)/(exp(a+C)+ exp(b+C))


user avatar   tylin98 网友的相关建议: 
      

女王:求求题主放过我,我可不敢有什么政绩。。。




  

相关话题

  以目前 AI 的能力,可以在各行各业替代哪些方面的工作内容? 
  算盘的计算速度有多快? 
  假如我穿越到2017年第一个提出了Transformer、BERT等模型,我可以保送到清华北大吗? 
  计算机专业大学生想要在以后有一份好工作,在大学期间应该及时考哪些证书? 
  如何评价微软研究院开发的AI量化投资平台Qlib? 
  为什么 Win 98 时代风格的安装程序很多都自带一个最大化的蓝/绿色背景?有什么用? 
  游戏建模师会在未来被ai淘汰吗? 
  类似AlphaGo一样的人工智能什么时候才可以击败RTS(如星际)顶级选手? 
  为什么前端代码会被设计成允许用户在浏览器中看到,而客户端代码却不能? 
  AlphaGo 能战胜李世石吗? 

前一个讨论
为什么Transformer适合做多模态任务?
下一个讨论
20 年前的今天,中国正式加入世贸组织,20 年来为我们带来了哪些变化?





© 2025-03-24 - tinynew.org. All Rights Reserved.
© 2025-03-24 - tinynew.org. 保留所有权利