百科问答小站 logo
百科问答小站 font logo



如何学习视频识别技术? 第1页

  

user avatar   openmmlab 网友的相关建议: 
      

hello 同学,可以看看 MMAction2哦~

首先,截至目前 MMAction2 已经复现了相关的经典论文,包括 TSN, C3D, I3D, TSM, SlowFast, NonLocal 等等。同学可以按照论文发表时间顺序将 MMAction2 中支持的算法以及论文都阅读一遍。在阅读论文的同时,可以同时尝试用 MMAction2 跑一跑该算法。 MMAction2 提供了从训练数据下载,标注文件处理,视频采帧,图像增强,模型训练等一系列完整的实验功能,为用户降低视频理解领域的研究门槛。此外,我们还提供了多种多样的 demo,比如摄像头动作识别,长视频多标签识别等。

其次,在通读系列论文以后,可以开始阅读一些经典论文的代码。可以重点关注 MMAction2 中 mmaction.models 中所设计到的不同模型骨架(backbone)结构,许多论文都是基于模型的 backbone 做出适当的改进,更好地提取视频的时空特征。此外,目前也有工作是基于不同的学习方式,比如近期的 Omini-sourced 就是基于弱监督学习来利用网络数据去训练模型,可以在 MMAction2 中阅读对应源码进行更深入的探索。

再者,MMAction2 还提供了一个 colab tutorial colab.research.google.com。样例展示了使用 MMAction2 model zoo 中的模型进行推理,并在新的数据集上进行微调的全过程。题主可以在尝试这个 colab tutorial 之后,尝试将模型应用于自己的数据集,并尝试调节一些模型的超参数来提高模型在数据集上的性能。

最后,目前 MMAction2 还支持多模态动作识别与时序动作检测任务,时空动作检测任务相关的模型也在紧锣密鼓地开发中!如果题主感兴趣的话还可以亲自参与到 MMAction2 和其他 OpenMMLab 的开源项目中,与开发社区的其他小伙伴一起交流想法,互相提升。




  

相关话题

  快手上有哪些罕见的牛人? 
  有哪些万万没想到的冷知识? 
  算法导论求有向图强连通分量:按拓扑排序,求反向图的DFS。若改成按拓扑排序倒序,用原图做DFS,错在哪? 
  如何看待多模态transformer,是否会成为多模态领域的主流? 
  如何将某个分布作为机器学习的特征? 
  分类机器学习中,某一标签占比太大(标签稀疏),如何学习? 
  N 个乒乓球中有一个和其他的质量不同,用天平最少几次一定能称出来? 
  Evidential deep learning里一般怎么估计多标签分类的Uncertainty? 
  把一个视频文件后缀改成txt,得到是一串代码,那么反过来,有没有一种规律,编写一段代码然后生成视频? 
  大四年级,完全没接触过高数,目前对机器学习产生浓厚兴趣,该如何学习数学? 

前一个讨论
为什么超级富豪们总是中年离婚?生活中,中年人的感情更容易破裂吗?
下一个讨论
如何评价何恺明、Ross Girshick组的自监督时空表征学习新作?





© 2025-04-24 - tinynew.org. All Rights Reserved.
© 2025-04-24 - tinynew.org. 保留所有权利