首页

为什么Transformer适合做多模态任务？第1页

lykquitphy 网友的相关建议:

本质问题在于人们被几何学和生物视觉迷惑 n 年了，同一张图像的局部信息，就应该是附近像素才能填补的，过于强调左右上下，感受野交叠不交叠等问题，导致相关建模被带歪 n 年。

最后发现不同图像 patch 实际上也是互补的，同一张图像的几何建模在暴力查表意义下完全成了鸡肋。你的建模方式不必拘泥于 CNN，完全可以当成一堆乱序甚至不完整的 token 去暴力取长补短，而这种方式的一个代表者就是 transformer。

与其说是 transformer 能用于多模态，还不如说人们应该重新审视视觉的理解到底需不需要几何，或者我们感受层面的智能，很可能就是一种受限制物理能耗的低级实现，才需要几何的先验降低处理能力的不足。

huo-hua-de-41 网友的相关建议:

真的吗真的吗

有些任务transformer不见得是最优解吧

transformer敢拿出来在youtube8m上和nextvlad比比吗？

终究还是要看任务目标吧

多模态识别主要是挖掘不同模态之间的互补性，其核心在于怎么做图像和文本的融合。

多模态匹配的重点在于如何将图像和文本这两种模态特征进行对齐。

首先，transformer这个结构最先提出是用在机器翻译上的，它诞生之初就只是单一模态的模型。并且是经典的encoder decoder结构是设计来为sequence to sequence任务服务的。你很难看出他有什么针对多模态的特殊设计。

然后bert火了，成为了最强文本模型。然后多模态火了，为了不失去bert这个最强文本模型，同时把单一模态的bert扩展到多模态比较容易，就诞生了一批基于transformer的多模态模型。

但这些模型设计在我看来并不是最优，文本一侧是bert，图像一侧是resnet提特征，怎么看都比较别扭。最明显一点就是两侧的粒度都没有对齐，文本侧是token字或词，而图像侧是全局特征。比较好的建模方式，应该把图像的局部特征也转化为视觉词，形成一个类似SIFT时代码表的东西，这样文本词就可以和视觉词对齐。这样的模型就非常漂亮了。

显然有不少研究者也发现了这个问题。所以用ViT的方式来表征是视觉，把图片分割成16×16的patch来代表视觉词，此时粒度上就有了对齐的感觉了。但依然还比较粗糙，图片里各种大大小小的物体，不可能用一个固定大小的patch来准确捕捉所有语义。

到此为止，在transformer基础上进行了一系列改进，才使得transformer开始适合多模态任务，但依然有很多需要改进的点。但总体上来说，我对transformer多模态模型依然还是很乐观的。

为什么Transformer适合做多模态任务？的其他答案点击这里