首页

视觉Transformer如何优雅地避开位置编码？第1页

1

xiaohuzc 网友的相关建议:

self-attention本身是对tokens的顺序是不敏感的，所以如果没有位置编码，那么transformer就只能依靠patches之间的纯语义来建模，这就相当于模型自己要学会“拼图”，或者类似一个“词袋模型”。从ViT的实验看，去掉position embedding后，性能会下降3个点以上，对结果还是影响比较大的。另外图像任务比如分割和检测大部分都是可变输入的，固定的PE对此并不友好，需要finetune。

目前的研究如CPVT和CvT可以在transformer引入卷积来隐式地编码位置信息，这就避免了直接使用PE，从结果上看，效果也和采用PE类似。

另外MoCo v3中也提到了PE的问题，发现去掉PE，对ViT进行无监督训练，性能下降只有不到2%。He神更倾向认为就算加了PE，可能模型也没有充分利用好位置信息。这个问题还需要进一步研究。

我个人认为文本和图像还是差异比较大的，图像毕竟属于一个高维连续空间。PE可能对文本建模影响比较大，但是对图像可能影响没那么大。ViT模型完全只依靠一堆无序的patches就能够学习得足够好。

视觉Transformer如何优雅地避开位置编码？的其他答案点击这里

1

相关话题

  为什么 Stephen Hawking（史蒂芬·霍金）认为「人工智能或导致人类灭绝，应加以控制」？
  计算机在德州扑克比赛中可以战胜人类吗？
  为什么图形学的会议siggraph的论文代码很少会开源？好像视觉如CVPR、ICCV开源的更多一些。
  如何评价MSRA最新的 Relation Networks for Object Detection？
  电子（EE）专业犹豫要不要研究生转计算机专业（CS）？
  为什么图形学的会议siggraph的论文代码很少会开源？好像视觉如CVPR、ICCV开源的更多一些。
  什么是meta-learning?
  欧洲有哪些统计机器学习比较强的大学或者研究院的？？
  是否有算法可以去除电影中的马赛克？
  如何看待谷歌公开 tensorflow 专用处理器 TPU?

前一个讨论

你们当初是因为什么选择生化环材专业的？

下一个讨论

本科化学的大佬们可以晒一下现在在做的工作吗？

相关的话题

  Resnet是否只是一个深度学习的trick？
  为什么谈论深度学习工具时，很少有人讨论matlab的神经网络工具包？
  强化学习和自适应控制的关系是什么？
  Domain Adaptation学术上有哪些方向，还有哪些可做的地方？
  如何去构建一家属于【我们自己】的公司（超级合作社）？
  如何评价谷歌大脑的EfficientNet？
  迁移学习与fine-tuning有什么区别？
  自动驾驶汽车在危险情况下可以不计后果地保护自己的主人吗？
  如何用一句话证明自然语言处理很难？
  未来有什么工作绝对不会被人工智能（AI）取代？
  如何评价MSRA最新的 Relation Networks for Object Detection？
  NLP文本匹配问题的本质是不是对于要预测的句子，遍历候选句子从训练数据集里寻找最相似的pair？
  如何看待商汤科技高管半年薪酬近12 亿？
  有没有玩家决定策略之后让AI按照策略自行作战的游戏？
  怎样吸引优秀的C++程序员？
  能分享你收藏的国外AI talk, seminar平台或网站吗？
  2019年CVPR有哪些糟糕的论文?
  机器视觉为什么不用手机的镜头，而要用那么大的工业相机？
  如何看待SIREN激活函数的提出？
  如何看待华为 4 月 25 日发布的盘古智能大模型？在这个行业处于什么水平？
  低分辨率图像相对于高分辨率图像在CNN中缺失了哪些特征？
  如何看待 315 晚会曝光摄像头人脸识别遭滥用，需要如何解决？
  如何评价 2021 年 12 月新改版的知识引擎 magi.com？
  应该选择TensorFlow还是Theano？
  华为年薪百万的应届博士到底有多厉害？
  如何看待阿里巴巴提出的 FashionAI 比赛？
  如果人类自身的智慧水平最后被人工智能（AI）超过，算是进化么？
  如何评价基于游戏毁灭战士（Doom）的AI死亡竞赛大赛结果？
  如何评价Google提出的MLP-Mixer：只需要MLP就可以在ImageNet上达到SOTA？
  换脸、声音合成等深度伪造技术会给社会治理带来什么挑战？

© 2025-06-15 - tinynew.org. All Rights Reserved.
© 2025-06-15 - tinynew.org. 保留所有权利