首页

为什么ViT里的image patch要设计成不重叠？第1页

1

xiaohuzc 网友的相关建议:

其实这个问题，本身可能没有想象的那么复杂，最开始肯定考虑输入是pixel的，可是计算量承受不起，那就把图像分成patch。

网友的相关建议:

题主的concern是对的，切分-投影的做法确实很直接地兼容Transformer框架，不过这种方法确实有一定问题：

1、如果认为translation invariant是很重要的先验，那这种方法显然不满足这一性质；

2、对patch内部的空间结构信息有破坏，像素结构在上层（随着attention）逐渐丢失。

关于后一点，通过修改网络结构向Transformer block里补充像素结构已经被实验证实是有益的，例如华为诺亚实验室的TNT：

为什么ViT里的image patch要设计成不重叠？的其他答案点击这里

1

相关话题

  为什么我学过微积分、线性代数和概率论，还是看不懂机器学习？
  正负样本极不平衡的问题？
  假如我穿越到2017年第一个提出了Transformer、BERT等模型，我可以保送到清华北大吗？
  resnet（残差网络）的F（x）究竟长什么样子？
  ICML2020有哪些值得关注的工作?
  如何评价MXNet发布的1.0版本？
  如何评价 NVIDIA 发布的 DGX-1？
  如何评价小米开源的移动端深度学习框架MACE？
  刚进算法团队，大牛们讨论高深的 cv 术语和算法，如何才能听懂？
  机器学习中macro-F1的计算公式？

前一个讨论

2021 新高考填报模式「专业（类）+院校」组合如何填报？什么是「院校专业组」？

下一个讨论

如何看待中山大学2021年本科大类招生？

相关的话题

  如何看待Capsule Network在NLP领域的潜力？
  NLP文本匹配问题的本质是不是对于要预测的句子，遍历候选句子从训练数据集里寻找最相似的pair？
  cygwin和mingw选哪个？
  如何看待Tensor Comprehensions？与TVM有何异同？
  如何评价谷歌大脑的EfficientNet？
  现代人工神经网络是不是一个死胡同？这个技术是不是骗人的？
  基于对比学习(Contrastive Learning)的文本表示模型【为什么】能学到语义【相似】度？
  为什么最近几年 FPGA 变得越发受大家重视了？
  深度学习中Attention与全连接层的区别何在？
  如何评价Google提出的MLP-Mixer：只需要MLP就可以在ImageNet上达到SOTA？
  计算机视觉和自然语言处理，哪个更具有发展前景呢，还是各有千秋呢？
  attention跟一维卷积的区别是啥？
  目标检测中的mAP是什么含义？
  如何评价mixup: BEYOND EMPIRICAL RISK MINIMIZATION？
  你遇见过什么当时很有潜力但是最终没有流行的深度学习算法?
  CV方向多模态融合有哪些好的paper？
  有哪些有趣的图形学(CG)和计算机视觉(CV)相结合的应用的例子？
  主动学习（Active Learning）近几年的研究有哪些进展，现在有哪些代表性成果？
  未来20年，新技术将从哪些方面改变人的消费方式？
  如何评价 DeepMind 公布的可生成算法竞赛解题代码的 AlphaCode？
  怎么形象理解embedding这个概念？
  如何评价周志华教授新提出的 Deep Forest 模型，它会取代当前火热的深度学习 DNN 吗？
  2019年CVPR有哪些糟糕的论文?
  应该选择TensorFlow还是Theano？
  如何看待QQ邮箱翻译出他人的快递通知？
  AI（或者说神经网络/深度学习）能够实现科学（尤其是物理学）研究中提出假设这一步嘛？
  人工智能已在哪些领域超越了人类的表现？
  wasserstein 距离的问题?
  adversarial training为什么会起作用？
  计算机视觉顶级会议论文中比较适合初学计算机视觉的人做的复现实验有哪些？

© 2025-04-15 - tinynew.org. All Rights Reserved.
© 2025-04-15 - tinynew.org. 保留所有权利