百科问答小站 logo
百科问答小站 font logo



transformer中的Q,K,V到底是什么? 第1页

  

user avatar   zhaomingming0617 网友的相关建议: 
      

Q:查询向量
K:表示被查询信息与其他信息的相关性的向量
V:表示被查询信息的向量

输入向量为:x, 1xm向量

       Q  = x * Wq K  = x * Wk V  = x * Wv  x对应信息V的注意力权重 与 Q*K.tranpose 成正比 等于说:x的注意力权重,由x自己来决定,所以叫自注意力。 Wq,Wk,Wv会根据任务目标更新变化,保证了自注意力机制的效果。  以下是点乘自注意力机制的公式     


user avatar   llllllllllll-6 网友的相关建议: 
      

哈哈,突然想到了一个很形象的解释方法:

你有一个问题Q,然后去搜索引擎里面搜,搜索引擎里面有好多文章,每个文章V有一个能代表其正文内容的标题K,然后搜索引擎用你的问题Q和那些文章V的标题K进行一个匹配,看看相关度(QK --->attention值),然后你想用这些检索到的不同相关度的文章V来表示你的问题,就用这些相关度将检索的文章V做一个加权和,那么你就得到了一个新的Q',这个Q'融合了相关性强的文章V更多信息,而融合了相关性弱的文章V较少的信息。这就是注意力机制,注意力度不同,重点关注(权值大)与你想要的东西相关性强的部分,稍微关注(权值小)相关性弱的部分。




  

相关话题

  卷积神经网络如果将池化层去除,与神经网络的区别还大么? 
  神经网络中 warmup 策略为什么有效;有什么理论解释么? 
  你有哪些deep learning(rnn、cnn)调参的经验? 
  如何看待鄂维南院士等发起的机器学习联合研讨计划(c2sml.cn)? 
  如何评价FAIR提出的MaskFormer,在语义分割ADE20K上达到SOTA:55.6 mIoU? 
  如何看待阿里巴巴提出的 FashionAI 比赛? 
  除了深度神经网络已经实现的特性以外,大脑还有哪些特性是值得机器学习领域借鉴的? 
  在NLP上,CNN、RNN(认为LSTM等变体也是RNN)、最简单全连结MLP,三者相比,各有何优劣? 
  为什么学习深度学习感觉无法入门? 
  NLP文本匹配问题的本质是不是 对于要预测的句子,遍历候选句子 从训练数据集里寻找最相似的pair? 

前一个讨论
国家自然科学基金青年基金(2020)有那么难拿吗?
下一个讨论
想自学编程怎样下手?





© 2025-04-03 - tinynew.org. All Rights Reserved.
© 2025-04-03 - tinynew.org. 保留所有权利