百科问答小站 logo
百科问答小站 font logo



Transformer中的Mask矩阵已经有顺序了,能去掉position embedding吗? 第1页

  

user avatar   tylin98 网友的相关建议: 
      

@乎不知 邀,很好的问题!在Transformer中引入位置表示,正是由于self-attention是一个permutation equivariant的操作。而在decoder端的self-attention并不是permutation equivariant的(参见论文arxiv.org/abs/1908.1177 的Proposition 1)。正如你所说,mask的引入实质上是一种变相的位置表示,从这个角度来看,它的功能和绝对位置表示是有重叠的。当然能否去掉位置表示,我觉得是任务相关的,我知道有两篇论文有(实验性地)讨论过在语言建模(纯decoder结构)任务上去掉位置编码的情况:

1、这篇论文的实验表明去掉vanilla Transformer的position encoding反而能在语言建模上提升性能。

2、这篇Schmidhuber组的作品,实验部分也表明在语言建模中去掉位置表示效果要更好(见Table 3):

当然,我觉得这种结论还是得辩证地看,因为这两篇似乎都仅仅将位置编码加在输入端,这早已被认为不是一个很好的实践,因为显然经过几层attention模块以后这种位置表示的内容就会慢慢丢失。因此一些工作是明确将绝对位置表示加在每一层的,例如Al-Rfou et al., 2018,以及Universal Transformers 等等 。欢迎讨论。




  

相关话题

  如何评价微软亚洲研究院提出的LightRNN? 
  多模态训练,怎么解决不同模态之间差异的问题? 
  从应用的角度来看,深度学习怎样快速入门? 
  Word2vec 翻译到另一种语言,其向量空间之间的映射会不会是线性的? 
  如何评价FAIR提出的MaskFormer,在语义分割ADE20K上达到SOTA:55.6 mIoU? 
  如何看待Capsule Network在NLP领域的潜力? 
  如何理解 Swin Transformer 和 Vision Transformer不同任务上的差异? 
  想问下专业人士 OpenCv会被深度学习进一步取代吗进一步取代吗? 
  使用pytorch时,训练集数据太多达到上千万张,Dataloader加载很慢怎么办? 
  在集成电路设计领域(数字,模拟),人工智能有无可能取代人类? 

前一个讨论
为什么历史上很多伟人对女性有偏见,如叔本华,孔子,是由于女性本身的生理上问题还是性格上的劣性?
下一个讨论
35 岁以上的 IT 开发工作者都去哪里了?





© 2025-06-26 - tinynew.org. All Rights Reserved.
© 2025-06-26 - tinynew.org. 保留所有权利