VQA（视觉问答）现在的主要挑战是什么？第1页

zoe-32-67-50 网友的相关建议:

我感觉最近researchers在反思VQA/image captioning这个task本身，不再盲目魔改模型，追accuracy的提升。因为比起技术性问题，更致命的是，数据集和evaluation metrics的问题。问题没定义好(dataset & metrics)，何谈解决好(model)？

更何况，VQA是一个很现实的问题，我们不是在谈论如何高那一个百分点，而是说，怎样把这个task真真实实的，应用在生活中，这样就需要考虑很多别的事情，比如隐私问题，比如AI模型给出的答案怎么更可信可靠，怎么才能有和人更好的交互。

数据集的挑战：

(1) 不够贴合实际。MS COCO/VQA v2这些数据集的图都是收集于网络(Flicker之类的), 太干净了, 一些用于reasoning推理的数据集的图甚至是电脑自动生成的，问题也要么是crowd workers问的或是电脑生成的。完全理想状况下训练的模型，自然在日常使用一塌糊涂。

(2) 缺乏多样化的回答。给一张图，人类回答问题/给出描述的时候总是各种各样的，要么因为看的区域不同所以给的答案/描述不同；要么因为看的区域相同但是背景知识不同或者语言表述不同而产生了不同的答案。

现在流行的VQA数据集基本都是基于英语的，收集过程中也不考虑不同国家不同文化程度的人对物体有不同的认知以及背景知识。

现在VQA/captioning的模型，则很少考虑如何产生多样性答案，report结果的时候更不report diversity/variance。

现在的关于visual grounding的模型，更是默认只ground一个answer，没考虑“看的区域不同”，给出的答案/描述可能不同。

以下分享一些2020年的关于“diverse answer/captioning”文章：

关于image captioning ground truth的数目的影响：Towards Understanding Sample Variance in Visually Grounded Language Generation: Evaluations and Observations

controllable image captioning: https://openaccess.thecvf.com/content_CVPR_2020/papers/Chen_Say_As_You_Wish_Fine-Grained_Control_of_Image_Caption_Generation_CVPR_2020_paper.pdf

（3）human-in-the-loop。现在的VQA是one-shot（一轮）and one way（单向）的。未来VQA可能不只是对一张图片，问一个问题，获得一个答案，而会加入多轮对话（visual dialog），可以对一组图片（比如一个物体的不同角度），问多组问题或Follow-up question。计算机也不仅仅是会回答问题，也可以主动发问来获取用户没有提供的信息(visual question generation & active learning)。总之要让用户和计算机有真正的交互。

（4）隐私保护 & 内容警告 & 可信可靠的系统。

隐私保护：图片中隐私信息自动打码（e.g., 银行卡信息相关的VQA）。

黄赌毒色等信息的内容警告：涉及这些的VQA要加上content warning。

可信可靠的系统：举个例子，当用户问：“这是啥调料”，和问“这个药一天吃几片”，明显问“这个药一天吃几片”需要更可靠的AI system。前者能在confidence程度低的时候给出答案，但是后者如果confidence不高，还不如说I don't know，不然可能造成严重后果。另外比如图表相关的VQA/描述，也需要很高的准确性。

（5）VQA external knowledge：现在的VQA数据集缺乏在图片背后的关于这个世界的信息，比如时间上的，空间上的，认知的，社会的信息。现在的VQA一般从concept net 或者DBpedia中获取额外信息。

Metrics的挑战:

无力吐槽，一塌糊涂：BLEU, ROUGE, METEOR, CIDEr, SPICE。近年出了BERTScore（不人工定义metrics，而是另外design一个模型去学习如何评价模型）。

模型的挑战：

(1) Image feature extractor，如Sakura所说，效果不咋地。2016-17年多用ResNet-152, 自从Buttom Up Top Down （BUTD）获得18年VQA challenge的冠军后，一大批人跟着用BUTD或者Buttom Up (Faster-R CNN)。2020年几篇paper开始回归grid/pixel features。

(2) counting & text related problem。

(3) 如果说图所提供的是internal knowledge，应该怎么和external knowledge （常识，各种专业知识) 结合来产生回答。

NLP的挑战：

大家可以看看这篇文章列举的VQA在语言方面的挑战，包括reasoning, ambiguity, vagueness, negation, and pragmatics。

Models are required to master a variety of language phenomena, such as language ambiguities, pragmatic aspects and context dependence, negation, entailment, mutual exclusivity and all the reasoning skills subtending them. Linguistic issues behind visual question answering

这几年我觉得比较有意思的方向：

（1）Neural-Symoblic VQA: MIT有一个组在做Neural-Symbolic VQA, song-chun zhu组里的Qing Li 最近两篇paper也是Neural-Symbolic VQA。

（2）VQA+常识+推理： scene graph是一个典型的方向，挺多组在做的。

（3）有好奇心的VQA系统：论文1：Active Learning for Visual Question Answering: An Empirical Study

（4）因果论+VQA。

（5）认知科学+VQA：认知科学中的attention, memory, learning process, vision system都能启发VQA的进步。

前路漫漫，要登上月球还远着呢

最近从《The book of why》，Song-Chun Zhu的blogs和AI debate2得到了些启发。

希望未来的VQA不仅仅是停留在“See”，而是看到浮在表面的5%的图，能懂得图下95%的“暗物质”：functionality, physics, intent, causality, and utility (FPICU)。（详情看Song-Chun Zhu的blog）。

不仅仅是在"See"，而是能慢慢爬上因果之梯，会“do”和“imagine”。（详情请看《the book of why》）

VQA/image captioning的现实应用：

我现在见到的关于VQA的应用有：盲人的视觉问答，搜索引擎（不单单是以图搜图或者以文字搜信息，而是结合图+问题，搜索出答案），智能驾驶领域，医疗问答，商品相关的对话系统，科学文档问答(docVQA)。

关于Image Captioning的应用有：Facebook/youtube的图像标注/视频概述，Slides(PPT)给图像自动加上描述方便用户编辑。

VQA在NLP角度上，是Visual dialog的垫脚石。

VQA在CV角度上，是Video-QA的垫脚石。

VQA不是终点哈

VQA（视觉问答）现在的主要挑战是什么？的其他答案点击这里

VQA（视觉问答）现在的主要挑战是什么？第1页

这几年我觉得比较有意思的方向：

前路漫漫，要登上月球还远着呢

相关话题

前一个讨论

下一个讨论

相关的话题

VQA（视觉问答）现在的主要挑战是什么？ 第1页

这几年我觉得比较有意思的方向：

前路漫漫，要登上月球还远着呢

相关话题

前一个讨论

下一个讨论

相关的话题

VQA（视觉问答）现在的主要挑战是什么？第1页