首页

为什么有的 Vision Transformer 中的 key 不需要 bias ？第1页

1

donglixp 网友的相关建议:

加和不加从结果上是等价的，BEiT在实现中去掉是为了fp16训练过程中数值稳定。

Both (i.e., with or without key.bias) are equivalent in terms of calculation results. They are canceled by the softmax function.

Softmax(q,k) = exp(q.weight * key.weight + q.bias * key.weight + q.weight * key.bias + q.bias * key.bias) / Z

Because the query is the same over all the keys, so the term (q.weight * key.bias + q.bias * key.bias) remains the same across all the keys, which in turn can be cancelled without affecting the softmax results.

exp(a)/(exp(a)+ exp(b)) == exp(a+C)/(exp(a+C)+ exp(b+C))

tylin98 网友的相关建议:

女王:求求题主放过我，我可不敢有什么政绩。。。

为什么有的 Vision Transformer 中的 key 不需要 bias ？的其他答案点击这里

1

相关话题

  做底层 AI 框架和做上层 AI 应用，哪个对自己的学术水平（或综合能力）促进更大？
  人工智能现在的发展前景如何？
  如何评价扎克伯格自己写的 Jarvis AI？
  人的大脑相当于什么水平的 GPU 和 CPU ?
  如何写好一篇高质量的IEEE/ACM Transaction级别的计算机科学论文?
  我是一个计算机学院的学生，用4000多电脑够用了么？
  天猫精灵有开放 API 吗？
  当一个程序员失去了对代码的兴趣，变得没有目标没有动力，是怎样的体验？
  高压缩文件是如何实现的？
  如何看待 Deepmind 宣称最新版 AlphaGo 能让李世乭版本 AlphaGo 三子？

前一个讨论

为什么Transformer适合做多模态任务？

下一个讨论

20 年前的今天，中国正式加入世贸组织，20 年来为我们带来了哪些变化？

相关的话题

  如何说服穷人家的女儿高考报考计算机类别的专业？
  Fabrice Bellard 是个什么水平的程序员？
  三本计算机真的比985生化环材土木水利工资高吗？
  transformer中的Q,K,V到底是什么？
  有哪些科技公司从辉煌到衰落？因为什么原因？
  机器人有办法绕开人类为他们设定的三大原则并统治人类吗？
  你所在的研究领域里，有哪些工作的结果虽然不是造假，但是是精挑细选出来的?
  如何评价「王斌给您对对联」？
  AlphaFold 震撼发布 98.5% 的人类蛋白结构预测结果，有哪些重大突破？它们将带来哪些应用？
  如何看待媒体报道称「Facebook将关闭人工智能系统：因AI已经发明语言」？
  大牛Bengio 团队最新的研究和我自己之前的研究成果重复了，应该怎么办？
  为什么机器人还没取代廉价低端劳动力?
  如何评价 MSRA 最新的 Deformable Convolutional Networks？
  如何评价浙江大学发布的“绝影”四足机器人?
  以目前 AI 的能力，可以在各行各业替代哪些方面的工作内容？
  如何看待倪光南表示中国人口红利将转化成工程师红利，成为信息领域强国？未来不懂技术的人会被淘汰吗？
  野指针危害真的很大吗？
  编程书籍教程等有哪些常见的错误或者不准确的地方？
  如果让计算机不使用操作系统做服务器性能上是否会更有优势?
  中国计算机专业的大学生相比于美国差在哪里？
  硅工艺是否属于路径依赖了?
  人工智能目前有哪些突破？
  计算机专业大一能写出 Hello World 程序是什么水平？
  会计会被机器代替吗?
  生物信息博士如果刷完leetcode，计算机水平够用吗？
  编程时怎么把函数当做变量使用？
  AI在网络安全领域（尤其是威胁检测领域），有什么好的应用场景？
  中国神威太湖之光位列HPC TOP500榜首，能说明中国计算机领先国际水平吗？
  编程书籍教程等有哪些常见的错误或者不准确的地方？
  晾一件刚洗的衣服，有可能计算出每滴水落地的时间间隔吗？

© 2025-06-14 - tinynew.org. All Rights Reserved.
© 2025-06-14 - tinynew.org. 保留所有权利