百科问答小站 logo
百科问答小站 font logo



为什么Transformer适合做多模态任务? 第1页

  

user avatar   lykquitphy 网友的相关建议: 
      

本质问题在于人们被几何学和生物视觉迷惑 n 年了,同一张图像的局部信息,就应该是附近像素才能填补的,过于强调左右上下,感受野交叠不交叠等问题,导致相关建模被带歪 n 年。

最后发现不同图像 patch 实际上也是互补的,同一张图像的几何建模在暴力查表意义下完全成了鸡肋。你的建模方式不必拘泥于 CNN,完全可以当成一堆乱序甚至不完整的 token 去暴力取长补短,而这种方式的一个代表者就是 transformer。

与其说是 transformer 能用于多模态,还不如说人们应该重新审视视觉的理解到底需不需要几何,或者我们感受层面的智能,很可能就是一种受限制物理能耗的低级实现,才需要几何的先验降低处理能力的不足。


user avatar   huo-hua-de-41 网友的相关建议: 
      

真的吗 真的吗

有些任务transformer不见得是最优解吧

transformer敢拿出来在youtube8m上和nextvlad比比吗?

终究还是要看任务目标吧

多模态识别主要是挖掘不同模态之间的互补性,其核心在于怎么做图像和文本的融合。

多模态匹配的重点在于如何将图像和文本这两种模态特征进行对齐。

首先,transformer这个结构最先提出是用在机器翻译上的,它诞生之初就只是单一模态的模型。并且是经典的encoder decoder结构是设计来为sequence to sequence任务服务的。你很难看出他有什么针对多模态的特殊设计。

然后bert火了,成为了最强文本模型。然后多模态火了,为了不失去bert这个最强文本模型,同时把单一模态的bert扩展到多模态比较容易,就诞生了一批基于transformer的多模态模型。

但这些模型设计在我看来并不是最优,文本一侧是bert,图像一侧是resnet提特征,怎么看都比较别扭。最明显一点就是两侧的粒度都没有对齐,文本侧是token字或词,而图像侧是全局特征。比较好的建模方式,应该把图像的局部特征也转化为视觉词,形成一个类似SIFT时代码表的东西,这样文本词就可以和视觉词对齐。这样的模型就非常漂亮了。

显然有不少研究者也发现了这个问题。所以用ViT的方式来表征是视觉,把图片分割成16×16的patch来代表视觉词,此时粒度上就有了对齐的感觉了。但依然还比较粗糙,图片里各种大大小小的物体,不可能用一个固定大小的patch来准确捕捉所有语义。

到此为止,在transformer基础上进行了一系列改进,才使得transformer开始适合多模态任务,但依然有很多需要改进的点。但总体上来说,我对transformer多模态模型依然还是很乐观的。




  

相关话题

  Transformer是如何处理可变长度数据的? 
  如何评价「Patches are all you need」? 
  神经网络中的能量函数是如何定义的? 
  如何理解今年发表在JMLR上随机森林算法SPORF? 
  人工智能相关的岗位薪酬状况如何? 
  实体提取任务中使用BERT-CRF时,CRF根据数据统计可以得到转移概率,为啥还要训练呢? 
  如何评价余凯在朋友圈发表呼吁大家用 caffe、mxnet 等框架,避免使用 TensorFlow? 
  AMD的CPU是否适合搭建深度学习主机? 
  为什么Transformer要用LayerNorm? 
  batchsize=1时可以用BN吗? 

前一个讨论
如何评价FAIR提出的MaskFeat:一种适用图像和视频分类的自监督学习方法?
下一个讨论
为什么有的 Vision Transformer 中的 key 不需要 bias ?





© 2024-09-19 - tinynew.org. All Rights Reserved.
© 2024-09-19 - tinynew.org. 保留所有权利