如何评价何恺明、Ross Girshick组的自监督时空表征学习新作？第1页

xiaohuzc 网友的相关建议:

还能说什么，Facebook厉害。

看来，未来无监督学习和transformer在CV领域还是潜力无穷。

简单看了一下论文，论文的核心是将近期图像中的无监督学习方法应用在视频分类的无监督训练中。这篇论文的实验非常充分，估计也只有大厂才有足够的资源来做这样的大规模实验。

论文中共选取了四种无监督学习方法：MoCo，BYOL，SimCLR，SwAV。其中MoCo和SimCLR是需要负样本的对比学习方法，而BYOL和SwAV是只依赖正样本的无监督学习方法。从另外一个角度看，MoCo和BYOL都采用了momentum encoder，而SimCLR和SwAV并没有。ps：这里的四种方法有2种是Facebook提出的，有两种是Google提出的。

无论是图像分类还是视频分类，无监督就是要学习到特征不变量。具体到图像上，上述方法其实都是要同一个图像做不同的augmentation来学习到不变的特征。那么对于视频分类来说，除了图像本身的变换外，还增加了时序维度。论文的做法是从同一个视频中sample不同的视频片段clips来做无监督学习（这其实可看成video独有的augmentation），这其实是希望学习到temporally-persistent features。如果只抽取一个clips，那么学习就其实只依赖图像本身的变换，这对于视频分类显然不够。论文实验也证明了：more clips are beneficial。另外一点是在采样时timespan between positives越大越有效，这点也不难理解，因为图像中也是越hard augmentation越好。不同clips时间差越大，将会产生hard positive，对于学习反而是有利的。不过如果是长视频，那么时间差比较大的clips可能会发生语义变化，从论文实验结果来看，对效果影响反而很小（图像分类的random crop其实也会改变语义，比如crop到了背景区域，不过看起来训练是能够容许noise的）。

具体到四种方法上，从实验结果来看，MoCo和BYOL的效果要稍高于SimCLR和SwAV，前面已经说话前者都采用了momentum encoder，momentum encoder的作用是尽量保持模型输出的一致性，可能视频分类这个问题上影响更大。论文里面也没有给出具体的解释。对于视频分类来说，由于训练所需资源更多，会不会无法采用较大的batch sizes（论文中是64*8=512），导致SimCLR效果稍差？

另外问题中提到了Multiscale Vision Transformers，我个人觉得虽然是一个不错的工作，但是其实只是将multi scale引入transformer来做视频分类，这就像PVT之于ViT。PVT和MViT其实都提到了减少self-attention中(key, value)的量来降低计算量：each query computes the attention with a sub-sampled set of the total tokens。只不过PVT是通过conv来实现的，而MViT是通过pooling来实现的。

其实multi scale或者说feature pyramid可以说是CNN的“遗产”。不过，我个人觉得在ViT这里也可能只是权宜之计（减少计算量，小数据，收敛更快等），未来可能还会丢弃它。

如何评价何恺明、Ross Girshick组的自监督时空表征学习新作？的其他答案点击这里