百科问答小站 logo
百科问答小站 font logo



如何评价VOLO: Vision Outlooker for Visual Recognition? 第1页

  

user avatar    网友的相关建议: 
      

精度确实很高,但是

  1. Outlooker和Dynamic Convolution也太像了吧。Issue里也有人提到过:Compare to DynamicConv · Issue #5 · sail-sg/volo

虽然包装得很好,但是 Unfold + Matrix Multiplication + Fold 就是等价于普通的Conv操作啊。因为这个地方每个空间位置的weight是不同的,所以就变成了Dynamic Conv。

用DynamicConv也没什么,最近的一些Conv+Transformer的Hybrid网络证明了这种混合更容易取得很好的accuracy。但是非要claim attention-based models are indeed able to outperform CNNs. 这个claim也许是真的,但不是这个工作所证明的。

2. 从Table.3 看出,每个scale的网络都有特定的drop path rate 和 Crop ratio. 只能说卡多任性吧。。。 能 用上A100的壕

3. 另外从2.知道,又不差卡,为什么不在ImageNet-21K 也做一下实验呢?既然都要宣传SOTA了,更容易对比的SOTA不香吗? 一定要在没有用额外数据 这种前提条件下。回头能不能也设置个setting, 没有用A100/V100,只用了1080Ti的情况下达到了sota?[doge]

有这么多资源不把实验做扎实就出来占坑,让大多数没那么多资源的咋办呀?[囧] 要不写个abstract 画个图先把坑占了?[doge]


Update:

今天arxiv更新的FAIR(3巨头之二)+UC Berkeley(Tete Xiao, Trevor Darrell)的文章Early Convolutions Help Transformers See Better arxiv.org/pdf/2106.1488 ,感觉很舒服,特别是和VOLO的overclaim对比。

首先,FAIR的这个工作分析,实验,描述都非常清晰,有什么就说什么,没有什么不会过分claim。印象比较深刻的是有句”Moreover, under carefully controlled comparisons, we find that ViTs are only able to surpass state-of-the-art CNNs when equipped with a convolutional stem“

Conv+Transformer又不寒碜,VOLO强行把DynamicConv弄成Unfold + Matrix Multiplication + Fold,再claim attention-based models are indeed able to outperform CNNs.[囧]

不知道LeCun会不会看到,以及看到有没有兴趣怼一下[doge]




  

相关话题

  如何评价《State Estimation for Robotics》? 
  在计算机视觉任务中,运用Transformer和Non-local有何本质区别? 
  如何评价微软提出的无监督视觉模型BEiT:ImageNet达到88.6,ADE20K达到57.0? 
  如何看待 2014 年以来计算机视觉(Computer Vision)界创业潮? 
  为什么这么多 NLP 大牛硕士毕业去企业不留在学术界? 
  做底层 AI 框架和做上层 AI 应用,哪个对自己的学术水平(或综合能力)促进更大? 
  如何通俗易懂地讲解 Photoshop 中的「通道」概念? 
  一张图片怎么用matlab 把颜色反相,就是红的部分变成绿的,蓝的部分变成黄的? 
  如何评价2020年计算机视觉顶会CVPR投稿量破万的现象? 
  如何看待谷歌研究人员提出的卷积正则化方法「DropBlock」? 

前一个讨论
之前不了解行情而已,已经上岸。谢谢大家指点。?
下一个讨论
除了百度,国内还有哪些无人驾驶公司?





© 2025-06-18 - tinynew.org. All Rights Reserved.
© 2025-06-18 - tinynew.org. 保留所有权利