百科问答小站 logo
百科问答小站 font logo



为什么Transformer适合做多模态任务? 第1页

  

user avatar   lykquitphy 网友的相关建议: 
      

本质问题在于人们被几何学和生物视觉迷惑 n 年了,同一张图像的局部信息,就应该是附近像素才能填补的,过于强调左右上下,感受野交叠不交叠等问题,导致相关建模被带歪 n 年。

最后发现不同图像 patch 实际上也是互补的,同一张图像的几何建模在暴力查表意义下完全成了鸡肋。你的建模方式不必拘泥于 CNN,完全可以当成一堆乱序甚至不完整的 token 去暴力取长补短,而这种方式的一个代表者就是 transformer。

与其说是 transformer 能用于多模态,还不如说人们应该重新审视视觉的理解到底需不需要几何,或者我们感受层面的智能,很可能就是一种受限制物理能耗的低级实现,才需要几何的先验降低处理能力的不足。


user avatar   huo-hua-de-41 网友的相关建议: 
      

真的吗 真的吗

有些任务transformer不见得是最优解吧

transformer敢拿出来在youtube8m上和nextvlad比比吗?

终究还是要看任务目标吧

多模态识别主要是挖掘不同模态之间的互补性,其核心在于怎么做图像和文本的融合。

多模态匹配的重点在于如何将图像和文本这两种模态特征进行对齐。

首先,transformer这个结构最先提出是用在机器翻译上的,它诞生之初就只是单一模态的模型。并且是经典的encoder decoder结构是设计来为sequence to sequence任务服务的。你很难看出他有什么针对多模态的特殊设计。

然后bert火了,成为了最强文本模型。然后多模态火了,为了不失去bert这个最强文本模型,同时把单一模态的bert扩展到多模态比较容易,就诞生了一批基于transformer的多模态模型。

但这些模型设计在我看来并不是最优,文本一侧是bert,图像一侧是resnet提特征,怎么看都比较别扭。最明显一点就是两侧的粒度都没有对齐,文本侧是token字或词,而图像侧是全局特征。比较好的建模方式,应该把图像的局部特征也转化为视觉词,形成一个类似SIFT时代码表的东西,这样文本词就可以和视觉词对齐。这样的模型就非常漂亮了。

显然有不少研究者也发现了这个问题。所以用ViT的方式来表征是视觉,把图片分割成16×16的patch来代表视觉词,此时粒度上就有了对齐的感觉了。但依然还比较粗糙,图片里各种大大小小的物体,不可能用一个固定大小的patch来准确捕捉所有语义。

到此为止,在transformer基础上进行了一系列改进,才使得transformer开始适合多模态任务,但依然有很多需要改进的点。但总体上来说,我对transformer多模态模型依然还是很乐观的。




  

相关话题

  adversarial training为什么会起作用? 
  机器学习能否用于综合评价?具体怎么操作? 
  图片上训的模型,怎么迁移视频上呢? 
  transformer 为什么使用 layer normalization,而不是其他的归一化方法? 
  你所在的研究领域里,有哪些工作的结果虽然不是造假,但是是精挑细选出来的? 
  你遇见过什么当时很有潜力但是最终没有流行的深度学习算法? 
  如何看UCBerkeley RISELab即将问世的Ray,replacement of Spark? 
  如何激怒一位人工智能(机器学习、深度学习、强化学习等)爱好者? 
  研一刚入学,从未接触过神经网络,python也是才开始学,现在导师要我做LSTM,我应该去学什么? 
  Transformer在工业界的应用瓶颈如何突破? 

前一个讨论
如何评价FAIR提出的MaskFeat:一种适用图像和视频分类的自监督学习方法?
下一个讨论
为什么有的 Vision Transformer 中的 key 不需要 bias ?





© 2024-11-24 - tinynew.org. All Rights Reserved.
© 2024-11-24 - tinynew.org. 保留所有权利