首页

为什么有的 Vision Transformer 中的 key 不需要 bias ？第1页

1

donglixp 网友的相关建议:

加和不加从结果上是等价的，BEiT在实现中去掉是为了fp16训练过程中数值稳定。

Both (i.e., with or without key.bias) are equivalent in terms of calculation results. They are canceled by the softmax function.

Softmax(q,k) = exp(q.weight * key.weight + q.bias * key.weight + q.weight * key.bias + q.bias * key.bias) / Z

Because the query is the same over all the keys, so the term (q.weight * key.bias + q.bias * key.bias) remains the same across all the keys, which in turn can be cancelled without affecting the softmax results.

exp(a)/(exp(a)+ exp(b)) == exp(a+C)/(exp(a+C)+ exp(b+C))

tylin98 网友的相关建议:

女王:求求题主放过我，我可不敢有什么政绩。。。

为什么有的 Vision Transformer 中的 key 不需要 bias ？的其他答案点击这里

1

相关话题

  为什么不把计算机列为中高考必考科目？
  DeepMind 再登 Nature，用 AI 破译古希腊文字，该成果会对人类历史研究带来什么影响？
  如何反驳「没有乔布斯就没有今天的个人计算机」的观点？
  2021年了，如何评价微软亚研提出的对偶学习（Dual Learning）？
  如何评价 UCLA 朱松纯教授近日访谈中对深度学习的批评？
  有哪些IT人才懂的梗？
  如果百年后深度学习最终有了公认的数学理论作为基础，能解释实验中的各类玄学，那这个理论会长什么样子？
  机器人领域最好的会议是什么?
  瞬间之中真的包含永远吗，瞬间之中怎么包含永远？
  土木就一定比计算机差吗?

前一个讨论

为什么Transformer适合做多模态任务？

下一个讨论

20 年前的今天，中国正式加入世贸组织，20 年来为我们带来了哪些变化？

相关的话题

  为什么交叉熵（cross-entropy）可以用于计算代价？
  为什么物理科普读物读起来津津有味，计算机科普却很枯燥且很少见？
  美本计算机去 cmu-sv 卡内基梅隆硅谷校区读 Software Management怎么样？
  老式机械计算器的工作原理？
  深度学习方面还有什么Open Problem?
  如何看待 TI7 上与 Dendi solo 的 OpenAI？
  为什么都是大一计算机水平差距这么大？
  为什么物理科普读物读起来津津有味，计算机科普却很枯燥且很少见？
  未来人工智能真的会让人类全面失业吗？如果真的有这种情况发生的话又如何应对？
  向下扩展的段，为什么偏移量是从limit+1 ~ 0xFFFF？
  ai将来可以熟练运用公式解应用题吗？那为什么我还要起早贪黑地学解公式，而不是研究怎么搞这个ai？
  RAM为什么是随机存储？
  《三体》中让你印象最深的科幻点子有哪些？以及他们的科学背景？
  软件工程界有其它与『操作系统内核』与『浏览器引擎』齐名的高难度项目吗？
  机器人有办法绕开人类为他们设定的三大原则并统治人类吗？
  如何评价 2018 清华大学特等奖学金计算机大类（贵系、软院、姚班）无人通过一轮筛选？
  人工智能可以超过人的创造力吗？
  NIPS 2018 有什么值得关注的亮点？
  如何看待 TI7 上与 Dendi solo 的 OpenAI？
  如何理解 Graph Convolutional Network（GCN）？
  为什么中国有超级计算机，但是中国的 CPU 不行？
  为什么全网都在推崇计算机、写代码，难道大学除了计算机专业其他专业真的一无是处吗?
  假如未来人工智能近乎完美，那么掌权者能够甘心放下手中的权力吗？
  请问有哪些法律和计算机领域结合的例子？
  如何看待Meta（恺明）最新论文ViTDet：只用ViT做backbone（不使用FPN）的检测模型？
  1980年之前的计算机如何使用远超内存的磁带?
  未来会不会出现这样的编程语言？
  至强CPU，都有哪些你不知道的小秘密？
  西南交通大学的土木工程和普通二本的计算机相比，那个更有前途?
  为什么这两年没再听说有什么大规模的电脑病毒爆发？

© 2025-05-25 - tinynew.org. All Rights Reserved.
© 2025-05-25 - tinynew.org. 保留所有权利