百科问答小站 logo
百科问答小站 font logo



如何评价CUHK以及Yuanjun Xiong提出的Trajectory Convolution? 第1页

  

user avatar   wzmsltw 网友的相关建议: 
      

正好今天写了这篇论文的论文笔记,见[NIPS 2018论文笔记] 轨迹卷积网络 TrajectoryNet

在深度学习之前,效果最好的行为识别方法是iDT(改进的密集轨迹方法),即先在图像中生成密集的轨迹,再沿着轨迹提取特征,从而获得视频整体的编码。而在深度学习时代,占主流地位的则为两类方法,一是双流网络,用两个子网络分别对图像和光流进行卷积,再进行融合;二是3D卷积网络,直接将视频帧序列的时序看作一个维度进行卷积。这两年很多3D卷积网络都是采取将3D卷积拆分为2D+1D卷积的方式来降低3D卷积的计算量,并增加网络的深度,从而获得更好的效果。但这篇文章认为,直接在时间维度上进行卷积隐含了一个很强的假设,即认为帧间的特征是很好地对齐地,而事实上人或者物体在视频中可能存在着很大地位移或是形变。因此,作者认为沿着轨迹来做时序上的卷积是更合理的方式。

那么,沿着时序轨迹做卷积意味着相邻帧对应的卷积核存在一个偏移,这篇文章则提出将轨迹卷积看作是3D可变形卷积(Deformable conv)的一个特例,由时序信息提供offset量,从而基于可变形卷积的代码可以较为容易地实现轨迹卷积。具体可见论文或是我的笔记内容。

这篇文章是我今年看到最喜欢的一篇行为识别论文了。其实去年自己也考虑了一段时间如何将轨迹信息完整的融入到网络中,但没想好该如何实现,虽然也读过可变形卷积的论文,可惜没有想到将两者联系起来(还是太菜了。。)。所以,读到Yue Zhao 的这篇文章有种豁然开朗的感觉。另外也要感叹,CUHK的mmlab在行为识别这块实力非凡,做出了很多重要的工作。总的来说,这篇文章所提出的轨迹卷积很好地将传统轨迹方法和深度学习结合在了一起,是非常好的一个工作。同时,个人认为轨迹卷积网络在算法效率(目前还比较慢)和算法效果上还有一定的提升空间,应该会有不少工作后续进行跟进。




  

相关话题

  如何看待 Google 既可以作 Inference,又可以作 Training 的新一代 TPU? 
  消融实验是什么? 
  刷票软件或者秒杀软件是如何破解验证码的? 
  如何评价 MSRA 视觉组最新提出的 Deformable ConvNets V2? 
  NLP领域,你推荐哪些综述性的文章? 
  写深度学习代码是先写model还是dataset还是train呢,有个一般化的顺序吗? 
  OpenAI 发布文字生成图像工具 DALL·E 2,它的画作水平如何?从技术角度如何评价它的能力? 
  OpenCV已经将图像处理(识别)的算法写成函数了,那我们还有必要去学习这些算法不? 
  Yoshua Bengio为什么能跟Hinton、LeCun相提并论?? 
  要研究深度学习的可解释性(Interpretability),应从哪几个方面着手? 

前一个讨论
有多少个数学家叫 Kolmogorov ?
下一个讨论
如何看待《我的博士老公失业了》一文?





© 2024-11-24 - tinynew.org. All Rights Reserved.
© 2024-11-24 - tinynew.org. 保留所有权利