百科问答小站 logo
百科问答小站 font logo



如何评价 MSRA 视觉组最新提出的 Deformable ConvNets V2? 第1页

  

user avatar   bcheng21 网友的相关建议: 
      

一周前就听说Jifeng组做出了Deformable ConvNet V2(DCNV2),今天Jifeng告诉我paper已经挂ArXiv上之后果断放下所有事把这篇paper好好读了读。感觉这个工作特别solid,果然没有让人失望。下面简单谈谈个人对这篇paper的理解,可能有不对的地方请大家多多指点!

DCNV2首先用了更好的visualization来更深入的理解DCNV1为什么work以及还存在什么缺陷,发现存在的问题就是因为offset不可控导致引入了过多的context,而这些context可能是有害的([1]和[2]中也说明了这些context可能是有害的)。

解决方法也很简单粗暴:

  1. 增加更多的Deformable Convolution
  2. 让Deformable Conv不仅能学习offset,还能学习每个采样点的权重(modulation)
  3. 模拟R-CNN的feature(knowledge distillation)

(1) 就不用说了,在DCNV1中只有ResNet的Conv5 stage中有Deformable Conv,在DCNV2中把Conv3-Conv5的3x3 convolution都换成了Deformable Conv

(2) 在DCNV1里,Deformable Conv只学习offset:

而在DCNV2中,加入了对每个采样点的权重:

其中 是学到打offset, 是学到的权重。这样的好处是增加了更大的自由度,对于某些不想要的采样点权重可以学成0。

(3) [1]中作者(好吧,其实作者是我)发现把R-CNN和Faster RCNN的classification score结合起来可以提升performance,说明R-CNN学到的focus在物体上的feature可以解决redundant context的问题。但是增加额外的R-CNN会使inference速度变慢很多。DCNV2里的解决方法是把R-CNN当做teacher network,让DCNV2的ROIPooling之后的feature去模拟R-CNN的feature。(图里画的很清楚了)

其中feature mimic的loss定义是: ,在end-to-end train的时候这个loss给了一个0.1的weight。

实验结果大家看paper就好了,在ResNet-50 backbone COCO上跟DCNV1比涨了5个点!这比目前大部分detection paper靠东拼西凑涨的那一两个点要强多了。我惊讶的是和DCNV1对比,在image classification上也有很大的提升。

说说自己的想法吧,DCNV2方法简单,结果好,分析充分,我觉得和近期各种detection paper比算是业界良心了。我觉得还有可以学习的一点就是context的问题。很多detection的paper都在引入context(大家都claim说小物体需要引入context来解决),其实我个人觉得有点在扯淡,物体小最直接的方法难道不是放大物体来解决吗?比如SNIP/SNIPER都是在“放大”物体。所以在context这个问题上我(详情见[1]和[2])跟Jifeng他们的看法是一样的,我们也许不需要那么多没用的context。作者都是熟人,我也不多吹了,反正我是准备去follow这个工作了哈哈。

最后说说DCN有一个小缺点,其实就是速度的问题。因为没有cudnn的加速,DCN完全是靠im2col实现的(从目前的MXNet版本来看是这样的),当batchsize大的时候我感觉速度会比有cudnn加速的3x3 conv慢。很好奇当batchsize大的时候(比如ImageNet)的training时间会慢多少。希望以后能和dilated convolution一样被加到cudnn里支持吧。

================================================================

发现好多人好像没有看过[1][2],放张network的图(宣传一下自己的工作),DCN V2的mimic R-CNN和DCR V1的结构类似,但是通过knowledge distillation很巧妙的在inference阶段把R-CNN给去掉了。

[1] Revisiting RCNN: On Awakening the Classification Power of Faster RCNN

[2] Decoupled Classification Refinement: Hard False Positive Suppression for Object Detection


user avatar   kong-tao-72 网友的相关建议: 
      

先下结论:电影想把Freddie塑造成一个有人性的神,却忘了真正的Freddie只是一个有神性的人

如果作为一部粉丝向的情怀片,《波》已经达到了满分,哪怕不谈对细节出色的把控,光是最后二十分钟的神级还原已经足够让所有的情怀在we are the champions中泪流满面

感受一下当时的直播:

Live Aid https://www.zhihu.com/video/1092941240030597120


Live Aid https://www.zhihu.com/video/1092941515751579648

但是作为一部传记片,《波》还是太流程化了,才华横溢的主角惊艳出场,遇到小人,遭遇挫折,众叛亲离,踢开小人,亲友重聚,完美收场。作为人物小传也算及格,但是对于Freddie这样的传奇人物的剖析还是不够大胆,想要表现其人性的一面,又不敢去探索Freddie其实也有自私功利的角落,想要表现其亦男亦女的魅力,却又只是浮于外表没有触碰到灵魂,以至于片子自始至终有种畏手畏脚的憋屈感。

不过不管受众是谁,《波西米亚狂想曲》至少是一部及格线以上的作品,再加上Queen的音乐加成,哪怕不至于血脉喷张,但让观众在电影院点点头抖抖腿还是绰绰有余了

看完电影之后,再看到波西米亚狂想曲的歌词,或许会有一些不一样的体会

Is this the real life

Is this just fantasy

Caught in a landslide. No escape from reality

Open your eyes.Look up to the skies and see

I'm just a poor boy, I need no sympathy

Because I'm easy come, easy go,A little high, little low,

Anyway the wind blows, doesn't really matter to me

freddie的生命像一场华丽的错觉,但他所留下来的,is not fantasy




  

相关话题

  2018年了,MXNet 发展的如何了? 
  了解/从事机器学习/深度学习系统相关的研究需要什么样的知识结构? 
  国内外有哪些做小样本学习(Few-Shot Learning)的优秀团队? 
  为什么自动控制理论这么玄学? 
  transformer中的Q,K,V到底是什么? 
  深度学习领域,你心目中 idea 最惊艳的论文是哪篇? 
  如何评价Google最新提出的gMLP:MLP模型在CV和NLP任务上均取得较好的效果? 
  对神经网络某一层做了小改进,效果却提升显著,可以发论文吗? 
  有谁照着论文把 AlphaGo 重现出来了? 
  卷积神经网络如果将池化层去除,与神经网络的区别还大么? 

前一个讨论
深度神经网络(DNN)是否模拟了人类大脑皮层结构?
下一个讨论
为什么现在国内各大高校仍选用谭浩强的《C 程序设计》为教材?





© 2025-01-19 - tinynew.org. All Rights Reserved.
© 2025-01-19 - tinynew.org. 保留所有权利