本质问题在于人们被几何学和生物视觉迷惑 n 年了,同一张图像的局部信息,就应该是附近像素才能填补的,过于强调左右上下,感受野交叠不交叠等问题,导致相关建模被带歪 n 年。
最后发现不同图像 patch 实际上也是互补的,同一张图像的几何建模在暴力查表意义下完全成了鸡肋。你的建模方式不必拘泥于 CNN,完全可以当成一堆乱序甚至不完整的 token 去暴力取长补短,而这种方式的一个代表者就是 transformer。
与其说是 transformer 能用于多模态,还不如说人们应该重新审视视觉的理解到底需不需要几何,或者我们感受层面的智能,很可能就是一种受限制物理能耗的低级实现,才需要几何的先验降低处理能力的不足。
真的吗 真的吗
有些任务transformer不见得是最优解吧
transformer敢拿出来在youtube8m上和nextvlad比比吗?
终究还是要看任务目标吧
多模态识别主要是挖掘不同模态之间的互补性,其核心在于怎么做图像和文本的融合。
多模态匹配的重点在于如何将图像和文本这两种模态特征进行对齐。
首先,transformer这个结构最先提出是用在机器翻译上的,它诞生之初就只是单一模态的模型。并且是经典的encoder decoder结构是设计来为sequence to sequence任务服务的。你很难看出他有什么针对多模态的特殊设计。
然后bert火了,成为了最强文本模型。然后多模态火了,为了不失去bert这个最强文本模型,同时把单一模态的bert扩展到多模态比较容易,就诞生了一批基于transformer的多模态模型。
但这些模型设计在我看来并不是最优,文本一侧是bert,图像一侧是resnet提特征,怎么看都比较别扭。最明显一点就是两侧的粒度都没有对齐,文本侧是token字或词,而图像侧是全局特征。比较好的建模方式,应该把图像的局部特征也转化为视觉词,形成一个类似SIFT时代码表的东西,这样文本词就可以和视觉词对齐。这样的模型就非常漂亮了。
显然有不少研究者也发现了这个问题。所以用ViT的方式来表征是视觉,把图片分割成16×16的patch来代表视觉词,此时粒度上就有了对齐的感觉了。但依然还比较粗糙,图片里各种大大小小的物体,不可能用一个固定大小的patch来准确捕捉所有语义。
到此为止,在transformer基础上进行了一系列改进,才使得transformer开始适合多模态任务,但依然有很多需要改进的点。但总体上来说,我对transformer多模态模型依然还是很乐观的。