首页

视觉Transformer如何优雅地避开位置编码？第1页

1

xiaohuzc 网友的相关建议:

self-attention本身是对tokens的顺序是不敏感的，所以如果没有位置编码，那么transformer就只能依靠patches之间的纯语义来建模，这就相当于模型自己要学会“拼图”，或者类似一个“词袋模型”。从ViT的实验看，去掉position embedding后，性能会下降3个点以上，对结果还是影响比较大的。另外图像任务比如分割和检测大部分都是可变输入的，固定的PE对此并不友好，需要finetune。

目前的研究如CPVT和CvT可以在transformer引入卷积来隐式地编码位置信息，这就避免了直接使用PE，从结果上看，效果也和采用PE类似。

另外MoCo v3中也提到了PE的问题，发现去掉PE，对ViT进行无监督训练，性能下降只有不到2%。He神更倾向认为就算加了PE，可能模型也没有充分利用好位置信息。这个问题还需要进一步研究。

我个人认为文本和图像还是差异比较大的，图像毕竟属于一个高维连续空间。PE可能对文本建模影响比较大，但是对图像可能影响没那么大。ViT模型完全只依靠一堆无序的patches就能够学习得足够好。

视觉Transformer如何优雅地避开位置编码？的其他答案点击这里

1

相关话题

  有什么深度学习数学基础书推荐？
  学生网络用知识蒸馏损失去逼近教师网络，如何提高学生网络的准确率？
  BERT模型可以使用无监督的方法做文本相似度任务吗？
  深度学习底层开发对数学有哪些要求？
  多模态方面，有哪些牛组值得我们follow他们的工作？
  为什么身边的人都劝退人工智能，他真的有这么不堪吗？
  如何看待NLP领域最近比较火的prompt，能否借鉴到CV领域？
  什么是迁移学习 (Transfer Learning)？这个领域历史发展前景如何？
  翻译设备不断进化，很快会进入民用领域且越来越好用。那么现在一两岁的小孩，是否早教已没必要选英语了？
  scikit-learn, tensorflow, pytorch真的只需要查下API，不需要学吗?

前一个讨论

你们当初是因为什么选择生化环材专业的？

下一个讨论

本科化学的大佬们可以晒一下现在在做的工作吗？

相关的话题

  如果人类自身的智慧水平最后被人工智能（AI）超过，算是进化么？
  如何评价旷视开源的YOLOX，效果超过YOLOv5?
  2019年，计算机视觉领域，你推荐哪些综述性的文章？
  AI 有可能代替人类从事数学研究吗？
  在文本分类任务中，有哪些论文中很少提及却对性能有重要影响的tricks？
  人工智能 CV 岗位是不是现在供严重大于需？
  如何评价 PyTorch 团队推出的推荐系统库 TorchRec？
  如何看待「经验只是法律大数据遗漏的碎片」这句话？
  如何评价诺奖得主 Thomas J. Sargent「人工智能其实就是统计学」的观点？
  AI的发展会成为下一次推动人类实现飞跃发展的工业革命吗？
  为什么 AlphaGo 不敢挑战麻将？
  如何在图片中优雅而又有效地添加水印？
  为什么我觉得元宇宙是个骗局？
  如何看待NLP领域最近比较火的prompt，能否借鉴到CV领域？
  深度学习cnn中，怎么理解图像进行池化（pooling）后的平移不变性？
  为什么交叉熵（cross-entropy）可以用于计算代价？
  如何看待柯洁称「可能我太笨了」，这辈子都打败不了 AI 了？人类战胜不了 AI 是好事还是坏事？
  IJCAI/AAAI 的真实水平到底如何？
  编程达到什么水平才能编写出像caffe这样的深度学习框架？
  能否对卷积神经网络工作原理做一个直观的解释？
  智力正常的普通人如何扮演或揣摩理解智力超高的角色？
  神经网络能否代替决策树算法？
  wasserstein 距离的问题?
  机器人可以拥有人的情感吗？
  未来的智能家居领域，那一类产品更容易率先取得突破？
  如何激怒一位人工智能（机器学习、深度学习、强化学习等）爱好者？
  如何评价微软研究院开发的AI量化投资平台Qlib？
  OpenAI 首席科学家称 AI 或有点自主意识了，其中有哪些值得关注的信息？
  现在买车，要不要把「智能」作为影响购车决策的重要因素?
  为什么国家将加快人工智能研究生培养？又为什么很多研究生评论人工智能是个大坑呢？

© 2025-06-15 - tinynew.org. All Rights Reserved.
© 2025-06-15 - tinynew.org. 保留所有权利