首页

为什么ViT里的image patch要设计成不重叠？第1页

1

xiaohuzc 网友的相关建议:

其实这个问题，本身可能没有想象的那么复杂，最开始肯定考虑输入是pixel的，可是计算量承受不起，那就把图像分成patch。

网友的相关建议:

题主的concern是对的，切分-投影的做法确实很直接地兼容Transformer框架，不过这种方法确实有一定问题：

1、如果认为translation invariant是很重要的先验，那这种方法显然不满足这一性质；

2、对patch内部的空间结构信息有破坏，像素结构在上层（随着attention）逐渐丢失。

关于后一点，通过修改网络结构向Transformer block里补充像素结构已经被实验证实是有益的，例如华为诺亚实验室的TNT：

为什么ViT里的image patch要设计成不重叠？的其他答案点击这里

1

相关话题

  关于tensorflow中的滑动平均？
  深度学习（机器学习）的下一步如何发展？
  《人工智能训练师国家职业技能标准》发布，有哪些值得关注的信息？
  自然语言处理怎么最快入门？
  如何看待人工智能领域的很多专家认为「人工智能将对人类存亡造成威胁」的观点？
  如何判断两个Deep Learning 数据集的数据分布是否一致？
  请问应该怎样去学习图像识别和深度学习？
  机器学习里面的流形都是怎么用的？
  为啥gan里面几乎不用pooling？
  如何看待旷视 detection 组组长俞刚跳槽腾讯 PCG 光影研究室?

前一个讨论

2021 新高考填报模式「专业（类）+院校」组合如何填报？什么是「院校专业组」？

下一个讨论

如何看待中山大学2021年本科大类招生？

相关的话题

  CNN网络的pooling层有什么用？
  微软小冰测颜值是否比较准？为什么？
  CVPR2022 有什么值得关注的论文 ?
  是不是对于任意 n×n 大小的围棋棋盘，人类都赢不了 AlphaGo Zero 了？
  学习python中的pandas有没有好的教程推荐？
  你遇见过什么当时很有潜力但是最终没有流行的深度学习算法?
  有没有一些图像处理新手可以练习的项目？
  计算机视觉中，目前有哪些经典的目标跟踪算法？
  如何评价陈天奇团队新开源的TVM？
  如何看待在某度搜不到megengine官网？
  在你做推荐系统的过程中都遇到过什么坑？
  TVM 最新发布版本 0.3 有哪些亮点？
  BERT模型可以使用无监督的方法做文本相似度任务吗？
  如何评价谷歌大脑的EfficientNet？
  CVPR 2019 有哪些值得关注的亮点？
  UCLA 的朱松纯教授是一个什么样的人？
  如何看待NIPS2017图灵奖得主贝叶斯网络之父Judea Pearl讲座无人问津？
  如何评价CVPR2019程序主席Derek Hoiem的论点：计算机视觉只是记忆，不是智能？
  如何用简单易懂的例子解释条件随机场（CRF）模型？它和HMM有什么区别？
  深度学习领域有哪些瓶颈？
  为什么小模型已经可以很好地拟合数据集了，换大模型效果却要比小模型好？
  5-10年后，你觉得哪些科技会让我们“遗忘”现在的生活？
  graph convolutional network有什么比较好的应用task？
  有没有值得推荐的随机森林 Random Forest教材？
  人工智能已在哪些领域超越了人类的表现？
  用于数据挖掘的聚类算法有哪些，各有何优势？
  如何看待微软小冰写的诗？
  在文本分类任务中，有哪些论文中很少提及却对性能有重要影响的tricks？
  未来十年，AI 将可能与哪些产业结合应用？产生怎样的价值？
  现在的人工智能是否走上了数学的极端？

© 2025-05-04 - tinynew.org. All Rights Reserved.
© 2025-05-04 - tinynew.org. 保留所有权利