百科问答小站 logo
百科问答小站 font logo



为什么计算注意力机制的时候不加偏置项? 第1页

  

user avatar   mlxue-xi 网友的相关建议: 
      

1)注意力机制是需要计算目标item和序列中每一个item的,指数形式下增加bias,没有意义。

2)softmax权重分配存在赢者通吃,极其容易饱和,增加bias将加剧现象。所以在推荐中常常改为sigmoid函数,让权重平滑。

3)其次,增加参数,增大学习难度。

并非所有的设计都要遵循大众设计,遵循公式,要思考这样的因子可以不加吗,不加会不会更好,是不是原来的就也不需要加,加了为啥好,为啥不好。今天还看到了一篇论文在序列中加了零向量,那么在目标与序列完全无关的时候,模型attened到这个零向量即可,不会强制关注这个序列,不会引入额外的噪声。很巧妙的设计思路,当然这样的设计思路是来源于业务的理解,不是所有的业务都需要这样处理。因此,学会在合适的场景做合适的设计修改,往往产生不错的return。


user avatar   tylin98 网友的相关建议: 
      

女王:求求题主放过我,我可不敢有什么政绩。。。




  

相关话题

  如何评价余凯在朋友圈发表呼吁大家用 caffe、mxnet 等框架,避免使用 TensorFlow? 
  华为应届顶尖博士年薪百万,读博是不是有希望了? 
  为什么VAE-GAN的训练很容易发生梯度爆炸,如何避免? 
  深度学习attention机制中的Q,K,V分别是从哪来的? 
  batchsize=1时可以用BN吗? 
  现有的编程语言当中,哪些和自然语言更接近? 
  当前(2020年)机器学习中有哪些研究方向特别的坑? 
  把某人的 DNA 序列作为输入,正面照片作为输出,丢到深度神经网络里面学习,可行吗? 
  数字图像处理的工作是用传统算法更多还是用深度学习更多? 
  2020年,多标签学习(multi-label)有了哪些新的进展? 

前一个讨论
云南滇中新区发布「聚才计划」,最高给予 600 万元补助,这透露出哪些有价值的信息点?
下一个讨论
男方家境不好真的不能嫁嘛??





© 2024-11-09 - tinynew.org. All Rights Reserved.
© 2024-11-09 - tinynew.org. 保留所有权利