百科问答小站 logo
百科问答小站 font logo



如何理解 Swin Transformer 和 Vision Transformer不同任务上的差异? 第1页

  

user avatar    网友的相关建议: 
      

基于个人经验说个,vit的方案在疏松的数据上不行,比如sketch、colormap。

以前只是基于猜想,前段时间做了实验测试。16x16和直接的projection对于大部分自然数据的确是足够的,但是有些数据就是不够。具体可以拿16x16的格子对着数据比较。如果格子间的内容数据几乎差不多,那么就很依赖来自位置的global推理了,对数据增强和数据量都有要求。我猜flower可能就有这样的情况。而imagenet-skhtch的sketch不够稀疏,去掉shade可能就不一样了(似乎又可以搞篇文章)。

另外数据任务对global和local任务要求的情况也有关,但是这个衡量起来就比较难说清楚了。

我自己用的解决方法是,conv downsampling取代projection,然后配合数据稠密化,效果就好了。


user avatar   xiaohuzc 网友的相关建议: 
      

在大规模数据集上训练,应该vit的优势可能会显现出来,毕竟swin只是一种local attention net,理论上建模效果会比vit这种global attention net要差一些。




  

相关话题

  多模态方面,有哪些牛组值得我们follow他们的工作? 
  CVPR 2019 有哪些值得关注的亮点? 
  深度学习火热兴起后,隐马尔可夫模型(HMM)还有何独到之处,是不是几乎可被深度学习模型给替代了? 
  计算机视觉顶尖期刊和会议有哪些? 
  当前深度学习理论基础薄弱是否意味着我们应该放弃深度学习应用(计算机视觉、自然语言处理)? 
  如何评价最近火热的对比学习,会引领预训练模型新的范式嘛? 
  假如我穿越到2017年第一个提出了Transformer、BERT等模型,我可以保送到清华北大吗? 
  如何评价Google发布的第二代深度学习系统TensorFlow? 
  如果有第谷的数据,现在的机器学习,深度学习有办法学出开普勒三定律吗? 
  为什么 Bert 的三个 Embedding 可以进行相加? 

前一个讨论
在长城汽车工作是种怎样的体验?
下一个讨论
结合深度学习的图像修复怎么实现?





© 2025-06-04 - tinynew.org. All Rights Reserved.
© 2025-06-04 - tinynew.org. 保留所有权利