百科问答小站 logo
百科问答小站 font logo



如何评价 Face++ 旷视科技最新出品的检测专用 backbone 网络 DetNet ? 第1页

  

user avatar   skicy-yu 网友的相关建议: 
      

简单讲一下这篇文章的思路。

目前我们所有的检测算法大部分都是依赖于一个backbone网络,也就是传统大家说的ImageNet based model。但是ImageNet的base model往往是针对分类问题来train的,如果直接用来做detection/segmentation/skeleton等相关任务,其实是有比较明显的gap的。

最简单来讲,detection/segmentation等往往需要做pixel-level的定位,所以需要有尽可能大的feature map的spatial resolution。但是传统分类网络往往越卷越小,最后一个global average pool或者fc把所有spatial信息融合在一起,所以对空间信息的保存是非常不友好的。

传统大家做法是在ImageNet base model上面打补丁,比如加U-shape结构等。但是往往丢了的spatial很难被补回来。我们这篇工作希望是抛砖引玉,首先需要说明的是,我们在往这个方面努力,希望设计一个对detection/segmentation友好的网络,但是确实这个问题还是有许多需要改进的地方。

具体做法大家可以看paper细节。从结果上面来看,我们在只替换backbone网络的情况下,以更小的复杂度(少了近一倍)做到了更高的结果(超过一个多点)。无论是COCO的object detection还是instance segmentation上面,这个结果应该都是很impressive的。

最后,宣传一下我们最近的一些工作。

比如我们组去年做COCO skeleton第一的paper, 我们已经放出了完整的code

另外,我们之前的一个detection工作Light-head RCNN也放了code:




  

相关话题

  如何看待张潼老师从腾讯离职? 
  如何评价 DeepMind 公司? 
  法律是否可能被代码化? 
  人是如何做黑盒优化的? 
  钢琴一类乐器能否用穷举的方法写下所有可能的乐谱呢? 
  大三电子类专业要分流,大家能给个建议吗? 
  如何评价 DeepMind 发表在 Nature 上的使用深度强化学习对托卡马克等离子体进行磁控制? 
  俄罗斯一游戏支付公司用 AI 裁员 150 人,被裁员工被算法判定不敬业效率低下,这种评判方式合理吗? 
  transformer中的Q,K,V到底是什么? 
  如何评价第三局比赛AlphaGo再次战胜李世石? 

前一个讨论
全世界目前最大威胁是什么?
下一个讨论
Mac 上使用 SSD 进行 Win To Go 的体验如何?





© 2025-01-18 - tinynew.org. All Rights Reserved.
© 2025-01-18 - tinynew.org. 保留所有权利