如何理解 Swin Transformer 和 Vision Transformer不同任务上的差异？第1页

网友的相关建议:

基于个人经验说个，vit的方案在疏松的数据上不行，比如sketch、colormap。

以前只是基于猜想，前段时间做了实验测试。16x16和直接的projection对于大部分自然数据的确是足够的，但是有些数据就是不够。具体可以拿16x16的格子对着数据比较。如果格子间的内容数据几乎差不多，那么就很依赖来自位置的global推理了，对数据增强和数据量都有要求。我猜flower可能就有这样的情况。而imagenet-skhtch的sketch不够稀疏，去掉shade可能就不一样了（似乎又可以搞篇文章）。

另外数据任务对global和local任务要求的情况也有关，但是这个衡量起来就比较难说清楚了。

我自己用的解决方法是，conv downsampling取代projection，然后配合数据稠密化，效果就好了。

xiaohuzc 网友的相关建议:

在大规模数据集上训练，应该vit的优势可能会显现出来，毕竟swin只是一种local attention net，理论上建模效果会比vit这种global attention net要差一些。

如何理解 Swin Transformer 和 Vision Transformer不同任务上的差异？的其他答案点击这里

相关话题

  有哪些比较好的机器学习，深度学习的网络资源可利用？
  结合深度学习的图像修复怎么实现？
  如何评价微软机器翻译在 WMT2017 中英翻译达到「人类水平」？
  如何证明数据增强（Data Augmentation）有效性？
  ICLR 2021 有什么值得关注的投稿？
  深度学习两张3080ti和一张3090ti哪个好?
  人工智能相关的岗位薪酬状况如何？
  wav2vec中的30ms是怎么得来的?
  马上计算机研一，想问一下机器学习、深度学习…大家都是怎么入门的？
  TensorFlow 中 padding 的 SAME 和 VALID 两种方式有何异同？

如何理解 Swin Transformer 和 Vision Transformer不同任务上的差异？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

如何理解 Swin Transformer 和 Vision Transformer不同任务上的差异？第1页