百科问答小站 logo
百科问答小站 font logo



如何看待End-to-End Object Detection with Transformers? 第1页

  

user avatar   zyf-98-4 网友的相关建议: 
      

菜鸟炼丹师,如果描述有误请轻喷,各位大佬分析技术细节已经很到位了,我主要是想写写自己对DETR在high-level层面上的一些认识。


刚看完文章,感觉这篇文章已经上升到了object-part这个层次的learning,而不是传统的学习feature。文章融合了set prediction,OOL多方面的东西,这种object-level的检测其实已经有广泛研究了

包括胶囊网络其实也是这种part-object 层次的学习。文章4分像capsule network,7分像Thomas Kipf 的slot attention,我拿张图出来各位对比一下吧

首先我们来看看DETR和slot attention的联系

  1. CNN二者都有,作为特征提取,这个毋庸置疑,需要注意的是slot attention将位置信息显式的编码在feature map中,相当于使用transformer时添加的position encoding。
  2. Slot attention提供 个slot(随机初始化的),然后把这些特征以一种类似于聚类的方式分配到每个slot内部,利用每个slot预测一个object。而DETR所做的事情稍微复杂一点,第一步它通过transformer对集合数据做一个relation(像极了set transformer的样子),这一步打破了feature之间的独立性,加强了特征之间的联系。然后!它提供了 个随机的query vector(这不就是slot吗歪?)。然后DETR做了一件事,如果你看了附录你会发现,他的每个query其实对应着某些特定位置的object的检测,起到了和slot类似的作用。相当于每个query在问一个问题:哪个特征属于我啊?然后key标记应该属于这个q的特征,特征Value根据( )做为权重加权求和形成新的query vector。
  3. 最后,slot attention是将每个slot解码成图像,然后建模成各个slot的图像混合得到重构结果。而DETR则是对每个query提取类别与位置信息,然后对每个query和label进行匹配,得到监督损失。

最后,因为slot attention是无监督的,他计算的是重构损失。而DETR有label,可以先匹配prediction和label再计算损失(这也是setprediction task常用的方法了)。所以DETR其实不是一个非常novel的想法,但是他确实是第一个将part-object层面的表示方法引入真实场景目标检测的工作,而且很work!在此之前,Hinton老爷子组part-object层面的capsule自编码器只能在简单的mnist数据集work,

而像slot attention之类的基于目标的表示方法也没有在真实场景下投入使用,更多的是关注于distangle的质量以及其他一些指标。

言而总之,在我的观点里,它叩响了了object-centric的表达方式在目标检测的大门,而不再是花大力气去搞pixel-level的特征,object-centric更像是人类大脑的感知方式!


user avatar    网友的相关建议: 
      

女王:求求题主放过我,我可不敢有什么政绩。。。




  

相关话题

  神经网络中的能量函数是如何定义的? 
  阿里巴巴达摩院发布 2022 十大科技趋势,今年的趋势预测有哪些亮点? 
  假如将来科技发展到极致,人工智能已经解决人类生娃,教育,工作,婚姻,住房,生活的一切,人们会幸福吗? 
  能否把一个人的所有物理数据输入在一个模型里,然后计算他接下来的状态变化? 
  如何看待鄂维南院士等发起的机器学习联合研讨计划(c2sml.cn)? 
  如何激怒一个科研工作者? 
  如何评价微软亚研院提出的把 Transformer 提升到了 1000 层的 DeepNet? 
  如何评价「Patches are all you need」? 
  既然神经元的结构非常简单,那么为什么不制造几百亿个模拟神经元来模拟人脑? 
  很多人认为元宇宙是骗人的,为什么还是全球很多著名大公司投巨资去做? 

前一个讨论
ICLR 2021 有什么值得关注的投稿?
下一个讨论
如何看待美军无人机部队臂章出现了中国地图剪影?





© 2025-02-22 - tinynew.org. All Rights Reserved.
© 2025-02-22 - tinynew.org. 保留所有权利