百科问答小站 logo
百科问答小站 font logo



为什么Transformer适合做多模态任务? 第1页

  

user avatar   lykquitphy 网友的相关建议: 
      

本质问题在于人们被几何学和生物视觉迷惑 n 年了,同一张图像的局部信息,就应该是附近像素才能填补的,过于强调左右上下,感受野交叠不交叠等问题,导致相关建模被带歪 n 年。

最后发现不同图像 patch 实际上也是互补的,同一张图像的几何建模在暴力查表意义下完全成了鸡肋。你的建模方式不必拘泥于 CNN,完全可以当成一堆乱序甚至不完整的 token 去暴力取长补短,而这种方式的一个代表者就是 transformer。

与其说是 transformer 能用于多模态,还不如说人们应该重新审视视觉的理解到底需不需要几何,或者我们感受层面的智能,很可能就是一种受限制物理能耗的低级实现,才需要几何的先验降低处理能力的不足。


user avatar   huo-hua-de-41 网友的相关建议: 
      

真的吗 真的吗

有些任务transformer不见得是最优解吧

transformer敢拿出来在youtube8m上和nextvlad比比吗?

终究还是要看任务目标吧

多模态识别主要是挖掘不同模态之间的互补性,其核心在于怎么做图像和文本的融合。

多模态匹配的重点在于如何将图像和文本这两种模态特征进行对齐。

首先,transformer这个结构最先提出是用在机器翻译上的,它诞生之初就只是单一模态的模型。并且是经典的encoder decoder结构是设计来为sequence to sequence任务服务的。你很难看出他有什么针对多模态的特殊设计。

然后bert火了,成为了最强文本模型。然后多模态火了,为了不失去bert这个最强文本模型,同时把单一模态的bert扩展到多模态比较容易,就诞生了一批基于transformer的多模态模型。

但这些模型设计在我看来并不是最优,文本一侧是bert,图像一侧是resnet提特征,怎么看都比较别扭。最明显一点就是两侧的粒度都没有对齐,文本侧是token字或词,而图像侧是全局特征。比较好的建模方式,应该把图像的局部特征也转化为视觉词,形成一个类似SIFT时代码表的东西,这样文本词就可以和视觉词对齐。这样的模型就非常漂亮了。

显然有不少研究者也发现了这个问题。所以用ViT的方式来表征是视觉,把图片分割成16×16的patch来代表视觉词,此时粒度上就有了对齐的感觉了。但依然还比较粗糙,图片里各种大大小小的物体,不可能用一个固定大小的patch来准确捕捉所有语义。

到此为止,在transformer基础上进行了一系列改进,才使得transformer开始适合多模态任务,但依然有很多需要改进的点。但总体上来说,我对transformer多模态模型依然还是很乐观的。




  

相关话题

  如何看待MXNet在CVPR2017上公布的gluon接口? 
  如何评价FAIR提出的MaskFormer,在语义分割ADE20K上达到SOTA:55.6 mIoU? 
  现代人工神经网络是不是一个死胡同?这个技术是不是骗人的? 
  如何评价 BERT 模型? 
  如何看待Geoffrey Hinton的言论,深度学习要另起炉灶,彻底抛弃反向传播? 
  为什么编程语言语法的设计不往缩小与自然语言的差别的方向发展,或者说在这个方向发展得这么慢呢? 
  有哪些人工智能上的事实,没有一定人工智能知识的人不会相信? 
  在NLP当中,不同的评价指标,BLEU, METEOR, ROUGE和CIDEr的逻辑意义? 
  为什么计算注意力机制的时候不加偏置项? 
  nlp有哪些值得完整实现一遍的算法? 

前一个讨论
如何评价FAIR提出的MaskFeat:一种适用图像和视频分类的自监督学习方法?
下一个讨论
为什么有的 Vision Transformer 中的 key 不需要 bias ?





© 2024-11-25 - tinynew.org. All Rights Reserved.
© 2024-11-25 - tinynew.org. 保留所有权利