首页

Transformer中的Mask矩阵已经有顺序了，能去掉position embedding吗? 第1页

1

tylin98 网友的相关建议:

谢 @乎不知邀，很好的问题！在Transformer中引入位置表示，正是由于self-attention是一个permutation equivariant的操作。而在decoder端的self-attention并不是permutation equivariant的（参见论文https://arxiv.org/abs/1908.11775 的Proposition 1）。正如你所说，mask的引入实质上是一种变相的位置表示，从这个角度来看，它的功能和绝对位置表示是有重叠的。当然能否去掉位置表示，我觉得是任务相关的，我知道有两篇论文有（实验性地）讨论过在语言建模（纯decoder结构）任务上去掉位置编码的情况：

1、这篇论文的实验表明去掉vanilla Transformer的position encoding反而能在语言建模上提升性能。

2、这篇Schmidhuber组的作品，实验部分也表明在语言建模中去掉位置表示效果要更好（见Table 3）：

当然，我觉得这种结论还是得辩证地看，因为这两篇似乎都仅仅将位置编码加在输入端，这早已被认为不是一个很好的实践，因为显然经过几层attention模块以后这种位置表示的内容就会慢慢丢失。因此一些工作是明确将绝对位置表示加在每一层的，例如Al-Rfou et al., 2018，以及Universal Transformers 等等。欢迎讨论。

Transformer中的Mask矩阵已经有顺序了，能去掉position embedding吗? 的其他答案点击这里

1

相关话题

  Word2vec 翻译到另一种语言，其向量空间之间的映射会不会是线性的？
  Bert中的词向量各向异性具体什么意思啊？
  如何看待Transformer在CV上的应用前景，未来有可能替代CNN吗？
  OpenAI 发布文字生成图像工具 DALL·E 2，它的画作水平如何？从技术角度如何评价它的能力？
  如何评价1700亿参数的GPT-3？
  如何评价沐神他们写的《动手学深度学习》这本书？
  自然语言处理是计算机实现通用人工智能的最难挑战吗？
  如何看待华为 4 月 25 日发布的盘古智能大模型？在这个行业处于什么水平？
  如何理解链接预测（link prediction）？
  为什么计算注意力机制的时候不加偏置项？

前一个讨论

为什么历史上很多伟人对女性有偏见，如叔本华，孔子，是由于女性本身的生理上问题还是性格上的劣性？

下一个讨论

35 岁以上的 IT 开发工作者都去哪里了？

相关的话题

  如何评价旷视开源的YOLOX，效果超过YOLOv5?
  如何看待旷视科技新产品监视学生上课？
  生成式对抗网络GAN有哪些最新的发展，可以实际应用到哪些场景中？
  请问DeepMind和OpenAI身后的两大RL流派有什么具体的区别？
  pytorch 分布式计算你们都遇到过哪些坑/bug？
  2022 年人工智能领域的发展趋势是什么？你都有哪些期待？
  Word2vec 翻译到另一种语言，其向量空间之间的映射会不会是线性的？
  为什么现在有这么多人工智能无用论？
  如何评价生成模型框架 ZhuSuan?
  如何评价 MSRA 视觉组最新提出的 Deformable ConvNets V2？
  为啥gan里面几乎不用pooling？
  如何评价Google最新提出的gMLP：MLP模型在CV和NLP任务上均取得较好的效果？
  类似AlphaGo一样的人工智能什么时候才可以击败RTS（如星际）顶级选手？
  视觉Transformer如何优雅地避开位置编码？
  你遇见过什么当时很有潜力但是最终没有流行的深度学习算法?
  如何看待Transformer在CV上的应用前景，未来有可能替代CNN吗？
  如何评价微软机器翻译在 WMT2017 中英翻译达到「人类水平」？
  NLP文本分类的本质是不是其实是找相似，对于要分类的句子，在训练集里找最相似的句子？
  如何用一句话证明自然语言处理很难？
  怎样让机器有意识?
  DeepMind 团队中有哪些厉害的人物和技术积累？
  如何看待鄂维南院士等发起的机器学习联合研讨计划（c2sml.cn）？
  2021年人工智能领域有哪些关键性进展和突破？
  为什么 Bert 的三个 Embedding 可以进行相加？
  使用pytorch时，训练集数据太多达到上千万张，Dataloader加载很慢怎么办?
  2020-2021年NLP有什么核心技术的更迭吗？或者有什么推动领域发展的paper吗？
  下一代 AI 框架长什么样？
  GAN生成的数据没有标签怎么用来训练分类模型？
  实体提取任务中使用BERT-CRF时，CRF根据数据统计可以得到转移概率，为啥还要训练呢？
  如何看待Meta（恺明）最新论文ViTDet：只用ViT做backbone（不使用FPN）的检测模型？

© 2025-06-07 - tinynew.org. All Rights Reserved.
© 2025-06-07 - tinynew.org. 保留所有权利