百科问答小站 logo
百科问答小站 font logo



深度学习attention机制中的Q,K,V分别是从哪来的? 第1页

  

user avatar   huo-hua-de-41 网友的相关建议: 
      

Q,K,V思想最早应该是来自于Memory Networks。

准确说Memory Networks并不只是一个模型,而是一套思路,使用外部的一个memory来存储长期记忆信息,因为当时RNN系列模型使用final state 存储的信息,序列过长就会遗忘到早期信息。

甚至,我觉得Memory Networks的思想后面启发了self-attention和transformer。最重要的就是提出了query - key - value思想,当时的该模型聚焦的任务主要是question answering,先用输入的问题query检索key-value memories,找到和问题相似的memory的key,计算相关性分数,然后对value embedding进行加权求和,得到一个输出向量。这后面就衍生出了self-attention里的Q,K,V表示,在self-attention里的把X映射到QKV。

具体的实现呢,邱老师的讲座里说的很清楚了。QKV是输入的X乘上Wq, Wk, Wv三个矩阵得到的。全用X不是不可以,但参数太少,影响模型容量。




  

相关话题

  如何评价周志华教授新提出的 Deep Forest 模型,它会取代当前火热的深度学习 DNN 吗? 
  NLP 中 prompt learning 有哪些可能的天生缺陷?目前有什么样的方法来解决这样的缺陷? 
  神经网络中,bias有什么用,为什么要设置bias,当加权和大于某值时,激活才有意义? 
  实体提取任务中使用BERT-CRF时,CRF根据数据统计可以得到转移概率,为啥还要训练呢? 
  Bert中的词向量各向异性具体什么意思啊? 
  如何评价小米开源的移动端深度学习框架MACE? 
  nlp有哪些值得完整实现一遍的算法? 
  实验室一块GPU都没有怎么做深度学习? 
  为什么编程语言语法的设计不往缩小与自然语言的差别的方向发展,或者说在这个方向发展得这么慢呢? 
  让人工智能去下路边街头的象棋残局会赢吗? 

前一个讨论
2021 年 10 月 24 日南航材料实验室爆炸,生化环材问题又冲上热搜,你是如何看待的呢?
下一个讨论
男人也有痴情长情的,那为啥总有人说痴心女子负心汉呢?





© 2025-04-17 - tinynew.org. All Rights Reserved.
© 2025-04-17 - tinynew.org. 保留所有权利