首页

Transformer中的Mask矩阵已经有顺序了，能去掉position embedding吗? 第1页

1

tylin98 网友的相关建议:

谢 @乎不知邀，很好的问题！在Transformer中引入位置表示，正是由于self-attention是一个permutation equivariant的操作。而在decoder端的self-attention并不是permutation equivariant的（参见论文https://arxiv.org/abs/1908.11775 的Proposition 1）。正如你所说，mask的引入实质上是一种变相的位置表示，从这个角度来看，它的功能和绝对位置表示是有重叠的。当然能否去掉位置表示，我觉得是任务相关的，我知道有两篇论文有（实验性地）讨论过在语言建模（纯decoder结构）任务上去掉位置编码的情况：

1、这篇论文的实验表明去掉vanilla Transformer的position encoding反而能在语言建模上提升性能。

2、这篇Schmidhuber组的作品，实验部分也表明在语言建模中去掉位置表示效果要更好（见Table 3）：

当然，我觉得这种结论还是得辩证地看，因为这两篇似乎都仅仅将位置编码加在输入端，这早已被认为不是一个很好的实践，因为显然经过几层attention模块以后这种位置表示的内容就会慢慢丢失。因此一些工作是明确将绝对位置表示加在每一层的，例如Al-Rfou et al., 2018，以及Universal Transformers 等等。欢迎讨论。

Transformer中的Mask矩阵已经有顺序了，能去掉position embedding吗? 的其他答案点击这里

1

相关话题

  如何评价微软亚洲研究院提出的LightRNN？
  多模态训练，怎么解决不同模态之间差异的问题？
  从应用的角度来看，深度学习怎样快速入门？
  Word2vec 翻译到另一种语言，其向量空间之间的映射会不会是线性的？
  如何评价FAIR提出的MaskFormer，在语义分割ADE20K上达到SOTA：55.6 mIoU？
  如何看待Capsule Network在NLP领域的潜力？
  如何理解 Swin Transformer 和 Vision Transformer不同任务上的差异？
  想问下专业人士 OpenCv会被深度学习进一步取代吗进一步取代吗？
  使用pytorch时，训练集数据太多达到上千万张，Dataloader加载很慢怎么办?
  在集成电路设计领域（数字，模拟），人工智能有无可能取代人类？

前一个讨论

为什么历史上很多伟人对女性有偏见，如叔本华，孔子，是由于女性本身的生理上问题还是性格上的劣性？

下一个讨论

35 岁以上的 IT 开发工作者都去哪里了？

相关的话题

  DL框架的未来发展，TensorFlow/MXNet/PyTorch, 选哪个？
  如何评价周志华在微博对 AlphaGo 和机器学习技术的评论？
  如何评价 Kaiming 团队新作 Masked Autoencoders (MAE)？
  如何理解Inductive bias？
  视觉Transformer如何优雅地避开位置编码？
  如何看待周志华等人的新书《机器学习理论导引》？
  上学和读书有什么区别?
  有什么算法能对一个长短不一的时间序列进行分类预测?
  TensorFlow的自动求导具体是在哪部分代码里实现的？
  Batch normalization和Instance normalization的对比？
  在计算机视觉任务中，运用Transformer和Non-local有何本质区别？
  如何看待 2014 年以来计算机视觉（Computer Vision）界创业潮？
  如何看待timm作者发布ResNet新基准：ResNet50提至80.4，这对后续研究会带来哪些影响？
  算法工程师是否应该持续读论文？
  自监督学习（Self-supervised Learning）有什么比较新的思路？
  为什么强大的 MXNet 一直火不起来？
  如何评价浪潮发布的2457亿参数源1.0智能大模型？与GPT-3相比如何？处于AI模型领域什么水平？
  如何评价Yann LeCun 说的「要研究机器学习，本科应尽量多学物理和数学课」？
  CPU和GPU跑深度学习差别有多大？
  目前有哪些比较成功的人工智能应用？
  让人工智能去下路边街头的象棋残局会赢吗？
  单bert可以用来做文本相似度计算任务吗？
  2019年，计算机视觉领域，你推荐哪些综述性的文章？
  如何评价 DeepMind 公布的可生成算法竞赛解题代码的 AlphaCode？
  深度学习cnn中，怎么理解图像进行池化（pooling）后的平移不变性？
  做底层 AI 框架和做上层 AI 应用，哪个对自己的学术水平（或综合能力）促进更大？
  如何看待FAIR提出的8-bit optimizer：效果和32-bit optimizer相当？
  2021 年了，机器/深度学习还有哪些坑比较好挖？
  cv/nlp等方向的就业困难是全球性的吗？
  如何评价 DeepMind 发表在 Nature 的论文公开无需人类棋谱的 AlphaGo Zero？

© 2025-06-26 - tinynew.org. All Rights Reserved.
© 2025-06-26 - tinynew.org. 保留所有权利