《沈老师带你读论文》第六期,我们来探讨计算机视觉的高分辨率网络模型HRNet(High-Resolution Network)。
过去的CV模型会用如“下采样”(Down-sampling)等方式对图像进行分辨率的降低以求获取计算上的高性能,但单纯这么做会损失大量只有高分辨率才能拥有的信息。本期所读的论文提出的模型HRNet能够全程保持高分辨率表征,使得空间敏感度能够全程保持,从而在人体姿态估计、语义分割、物体检测等任务上能更有优势。
作为文章第一作者的王井东老师除了在《沈老师带你读论文》第六期中对论文《Deep High-Resolution Representation Learning for Visual Recognition》做了详细讲解,还在ReadPaper上回答了十问,如果想读论文或者对论文进行提问都可以点击这里哟~
一、论文试图解决什么问题?
该论文拟解决视觉任务中的高分辨率表征学习问题。许多计算机视觉问题,比如分割、检测、姿态估计、光流估计等,都需要位置敏感的表征,即高分比率表征。该论文是会议论文:(https://readpaper.com/paper/2916798096,仅仅做了姿态估计的实验)的推广。
二、这是否是一个新的问题?
高分辨率表征学习不是一个新问题。此前U-Net、Hourglass、 FPN等方法,其目标之一是学习高分辨率表征。不同的是,该论文所提的HRNet不是试图从分类网络得到的低分辨率表征来恢复高分辨率表征,而是直接学习高分辨率表征,网络结构设计不依赖于传统的分类网络。
三、这篇文章要验证一个什么科学假设?
这篇文章也在探讨这么一个问题:解决其他视觉问题的深度网络结构一定需要从分类网络出发吗?答案是不需要,可以from scratch来设计网络结构。
四、有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?
在HRNet这个工作之前,主要有两大类提升表征分辨率的方法,都是基于分类网络的。一类是在分类网络结构的基础上,额外加上网络以提高分辨率,如U-Net、Hourglass、 FPN、SegNet、DeconvNet等。另外一类是用dilated convolution来替代分类的downsample和普通卷积,比如把ResNet的最后一个downsample去掉,同时把第四阶段的卷积换成dilated convolution。
五、论文中提到的解决方案之关键是什么?
HRNet解决方案想法上的关键是网络至始至终都维持高分辨率表征。实现上的关键是:多路高低分辨率网络并联、以及多路网络的不同尺度的表征之间的交互融合。
六、论文中的实验是如何设计的?
实验部分的设计,一方面要证明HRNet要比以前基于分类网络的高分辨率表征学习方法,在语义分割、物体检测、人体姿态估计、以及人脸关键点检测等任务上,性能要好,另外一方面要验证HRNet设计的合理性,如多路高低分辨率网络并联和多路网络的不同尺度的表征之间的交互融合的作用。
七、用于定量评估的数据集是什么?代码有没有开源?
评估数据集主要是人体姿态估计的表征数据集:COCO。代码已开源:https://github.com/leoxiaobin/deep-high-resolution-net.pytorch。在语义分割(cityscapes)、物体检测(COCO)、以及人脸关键点检测等任务的代码也开源:https://github.com/HRNet。
八、论文中的实验及结果有没有很好地支持需要验证的科学假设?
该论文通过实验设计的第一个方面,很好的验证了科学假设:从from scratch设计的网络来学习高分辨率表征,比从分类网络出发学习得到的高分辨率表征要好 。
九、这篇论文到底有什么贡献?
从方法的角度来讲,这篇论文提出了一个高分辨率表征学习方法,相应的网络结构from scratch设计,不依赖于分类网络。从想法的角度来看,研究要跳出过往相关方法的网络设计的思路,才容易有新的突破。
十、下一步呢?有什么工作可以继续深入?
该文是在分割、检测、和关键点检测等任务上展开研究。
(1) 从应用的角度来看,应该对其他很多视觉任务都有帮助,如合成、OCR、光流等到,比如HRNet用在了Form Recognition:https://docs.microsoft.com/en-us/azure/applied-ai-services/form-recognizer/whats-new?tabs=csharp#may-2021。
(2)从方法的角度来看,如何做到小型化也是有意思的课题。其实HRNet有一个隐性出发点,是解决卷积计算空间冗余性的问题。此前,卷积计算主要是通过矩阵分解和稀疏化的角度来解决冗余性的问题。Lite-HRNet(https://github.com/HRNet/Lite-HRNet),是其中的一个工作。
(3)从实现的角度来看,目前Cuda上的实现对多路结构不是很友好,理论的速度优势没有完全体现,需要进一步研究实现。不过,CPU上的实现,理论的速度优势基本完全体现出来了。
(4)其实一个更有意义的事情是,从任务出发来设计网络结构是值得更加深入研究的方向,比如OCRNet(https://github.com/HRNet/HRNet-Semantic-Segmentation/tree/HRNet-OCR)用transformer attention来解决分割的问题;Conditional DETR(https://github.com/Atten4Vis/ConditionalDETR)解决了Detection Transformer(DETR)training的问题。
点击下面链接可以直达论文详情页,阅读HRNet,也欢迎各位提问,王井东老师有可能会回复的哟~
《Deep High-Resolution Representation Learning for Visual Recognition》