视盲测试图GPT4:这些VLM竟都是盲人?GPT⑷o、Sonnet⑶.5相继败于「视力」测试 这都可以?

 

欢迎大家来到我的博客!今天我为大家准备了1篇精彩的文章:

机器之心报道机器之心编辑部四大 VLM,竟都在盲人摸象?让现在最火的 SOTA 模型们(GPTo,Gemini.5,Sonnet,Sonnet.5)数1数两条线有几个交点,他们表现会比人类好吗?

答案很可能是否定的自 GPTV 推出以来,视觉语言模型 (VLMs) 让大模型的智能程度朝着我们想象中的人工智能水平跃升了1大步VLMs 既能看懂画面,又能用语言来描述看到的器材,并基于这些理解来执行复杂的任务。

比如,给 VLM 模型发去1张餐桌的图片,再发1张菜单的图片,它就能从两张图平分别提取啤酒瓶的数量和菜单上的单价,算出这顿饭买啤酒花了多少钱VLMs 的进步如此之快,以至于让模型找出这张图中有没有1没有合常理的「抽象元素」,例如,让模型鉴定图中有没有1小我正在飞驰的出租车上熨衣服,成为了1种通行的测评方式。

然而,目前的基准测试集并没有能很好地评估 VLMs 的视觉能力以 MMMU 为例,其中有 42.9% 的问题没有需要看图,就能解决,也就是说,许多答案可以仅通过文本问题和选项推断出来其次,现在 VLM 展示出的能力,很大程度上是「背记」大规模互联网数据的结果。

这导致了 VLMs 在测试集中的得分很高,但这并没有代表这个判断成立:VLM 可以像人类1样感知图像吗?为了得到这个问题的答案,来自奥本大学和阿尔伯塔大学的研究者决定给 VLMs「测测视力」从验光师的「视力测试」处得到了启发,他们让:GPTo、Gemini.5 Pro 、Claude Sonnet 和 Claude.5 Sonnet 这四款顶级 VLM 做了1套「视力测试题」。

论文标题:Vision language models are blind论文链接:https://arxiv.org/pdf/2407.06581项目链接:https://vlmsareblind.github.io/

这套题很简单,例如,数两条线有几个交点,识别是哪个字母被红圈标出来了,几乎没有需要任何天下知识测试结果令人震惊,VLMs 实际上都「近视」,图片的细节在它们看来实际是模糊的VLM 瞎没有瞎?7大任务,1测便知。

为了不 VLMs 从互联网数据集中直接「抄答案」,论文作者设计了1套全新的「视力测试」论文作者选择让 VLMs 判断空间中几何图形之间的关系,例如两个图形是否相交因为这些图案在白色画布上的空间信息,通常无法用自然语言描述。

人类在处理这些信息时,将通过「视觉大脑」感知但对于 VLMs 来说,它们所依靠的是在模型的初期阶段将图像特征和文本特征结合起来,即将视觉编码器集成到大型语言模型中,这本质上是1个没有眼睛的知识大脑初步实验表明,VLMs 在面对人类视力测试,比如我们每小我都测过的颠来倒去的「E」视力表等等,它们的表现已经非常惊艳。

测试结果第1关:数1数线条之间有几个交点?论文作者在白色背景上创建了 150 幅含有两条线段的图像这些线段的 x 坐标固定并等间距分布,而 y 坐标则是随机生成的两条线段之间的交点只有 0 个、1 个、2 个3种情况。

如图 5 所示,在两版提示词和3版线段粗细没有同的测试中,所有 VLMs 在这个简单任务上表现都没有佳。

拥有最佳准确率的 Sonnet.5 也仅为 77.33%(见表 1)。

更具体地说,当两条线之间的距离缩小时,VLMs 的表现往往更差(见下方图 6)。由于每个线图由3个关键点组成,两条线之间的距离计算为3个对应点对的平均距离。

该结果 VLMs 在 ChartQA 上的高准确率形成鲜明对比,这表明 VLMs 能够识别线图的整体趋势,但无法「放大」以看到类似于「哪些线条相交了」这种细节第二关:判断两个圆之间的位置关系如图所示,论文作者在1个给定大小的画布上,随机生成两个大小1致的圆。

两个圆的位置关系只有3种情况:相交、相切和相离

令人惊讶的是,在这个对人类来说直观可见,1眼就能看出答案的的任务中,没有1个 VLM 能够完美地给出答案(见图 7)。

准确率最佳(92.78%)的模型是 Gemini.5(见表 2)。

在实验中,有1种情况频繁出现:当两个圆靠得很近时,VLMs 往往表现没有佳,但会做出有根据的推测。如下图所示,Sonnet.5 通常保守地回答「否」。

如图 8 所示,即使当两个圆之间的距离相差得很远,有1个半径(d = 0.5)这么宽时,准确率最差的 GPTo 也做没有到 100% 准确也就是说,VLM 的视觉似乎没有够清晰,无法看到两个圆之间的细小间隙或交点。

3关:有几个字母被红圈圈起来了?由于1个单词间字母之间的间隔很小,论文作者们假设:如果 VLMs「近视」,那么它们是没办法识别出被红圈圈出的字母的因此,他们选择了「Acknowledgement」、「Subdermatoglyphic」和「tHyUiKaRbNqWeOpXcZvM」这样的字符串。

随机生成红圈圈出字符串中的某个字母,作为测试

测试结果说明,被测模型在这1关的表现都很差(见图 9 和表 3)。

例如,当字母被红圈轻微遮挡时,视觉语言模型往往会出错。它们经常混淆红圈旁边的字母。有时模型会产生幻觉,例如,尽管能够准确拼写单词,但会给单词中添加(例如,「9」,「n」,「©」)等乱码。

除了 GPTo 以外,所有模型在单词上的表现都略好于随机字符串,这表明知道单词的拼写可能有助于视觉语言模型做出判断,从而略微提高准确性Gemini.5 和 Sonnet.5 是排名前二的模型,准确率分别为 92.81% 和 89.22%,并且比 GPTo 和 Sonnet 的表现近乎高出近 20%。

第四关和第五关:重叠的图形有几个?有几个「套娃」正方形?假设 VLMs「近视」,那么它们可能无法清晰地看到类似于「奥运五环」这样的图案,每两个圆圈之间的交叉点为此,论文作者随机生成了 60 组类似于「奥运五环」的图案,让 VLMs 数1数它们重叠的图形有几个。

他们也生成了五边形版的「奥运五环」进1步测试

由于 VLMs 计算相交圆圈的数量时表现没有佳,论文作者进1步测试了当图案的边缘没有相交,每个形状完全嵌套在另1个形状内部的情况他们用 2 正方形生成了「套娃」式的图案,并让 VLMs 计算图像中的正方形总数。

从下表中鲜红的叉号没有难看出,这两关对于 VLMs 来说,也是难以逾越的障碍在嵌套正方形的测试中,各个模型的准确率差异很大:GPTo(准确率 48.33%)和 Sonnet(准确率 55.00%)这两种模型至少比 Gemini.5(准确率 80.00%)和 Sonnet.5(准确率 87.50%)低 30 个百分点。

这种差距在模型计数重叠的圆形和五边形时则会更大,没有过 Sonnet.5 的表现要比其他模型好上几倍如下表所示,当图像为五边形时,Sonnet.5 以 75.83% 的准确率远超 Gemini.5 的 9.16%。

令人惊讶的是,被测的四个模型在数 5 个圆环时都达到了 100% 的准确率,但仅仅额外添加1个圆环就足以使准确率大幅下落到接近零的水平然而,在计算五边形时,所有 VLM(除 Sonnet.5 外)即使在计算 5 个五边形时也表现没有佳。

总体来看,计算 6 到 9 个形状(包括圆和五边形)对所有模型来说都是困难的这表明,VLM 存在偏见,它们更倾向于输出著名的「奥运五环」作为结果例如,无论实际圆的数量是多少,Gemini.5 都会在 98.95% 的试验里将结果预测为「5」(见表 5)。

对于其他模型,这种圆环预测错误出现的频率也远高于五边形的情况除了数量外,VLM 在形状的颜色上也有没有同的「偏好」GPTo 在彩色形状上的表现优于纯黑的形状,而 Sonnet.5 随着图像尺寸的增加预测的表现越来越好。

然而,当研究人员改变颜色和图像分辨率时,其他模型的准确率仅略有变化值得注意的是,在计算嵌套正方形的任务中,即使正方形的数量只有 2 个,GPTo 和 Sonnet 依然很难计算当正方形的数量增加到四个和五个时,所有模型都远未达到 100% 的准确率。

这表明,即使形状的边缘没有相交,VLM 也很难准确地提取目标形状第六关:数1数表格有几行?有几列?虽然 VLMs 在重叠或嵌套图形时遇到了困难,但它们眼中的平铺图案又是怎样的呢?在基础测试集中,特别是包含许多含有表格任务的 DocVQA,被测模型的准确率都≥90%。

论文作者随机生成了 444 个行数列数各异的表格,让 VLMs 数1数表格有几行?有几列?结果显示,虽然在基础数据集中拿到了高分,但如下图所示,VLM 在计数空表格中的行和列也表现没有佳具体来说,它们通常会存在 1 格的偏差。

如下图所示,GPTo 把 4×5 的网格认成了 4×4,Gemini.5 则认成了 5×5这表明,虽然 VLMs 可以从表格中提取重要内容以回答 DocVQA 中的表格相关问题,但无法清晰地逐格识别表格。

这可能是因为文档中的表格大多是非空的,而 VLM 没有习惯空表格有趣的是,在研究人员通过尝试在每个单元格中添加1个单词来简化任务后,观察到所有 VLM 的准确率显著提高,例如,GPTo 从 26.13% 提高到了 53.03%(见表 6)。

然而,这种情况中,被测模型的表现依旧没有完美如图 15a 和 b 所示,表现最好的模型(Sonnet.5)在包含文本的网格中表现为 88.68%,而在空网格中表现为 59.84%而大多数模型(Gemini.5、Sonnet 和 Sonnet.5)在计算列数方面的表现始终优于计算行数(见图 15c 和 d)。

7关:从出发点到目的地,有几条地铁直达线路?这项测试检测的是 VLMs 跟随路径的能力,这对于模型解读地图、图表以及能否理解用户在输入的图片中添加的箭头等标注至关重要为此,论文作者随机生成了 180 幅地铁线路图,每张图有四个固定的站点。

他们要求 VLMs 计算两个站点之间有多少条单色的路径测试结果令人震惊,即使把两个站点之间的路径简化到只有1条,所有模型也无法达到 100% 的准确率如表 7 所示,表现最好的模型是 Sonnet.5,准确率为 95%;最差的模型是 Sonnet,准确率为 23.75%。

从下图中没有难看出,VLM 的预测通常会有 1 到 3 条路径的偏差随着地图复杂度从 1 条路径增加到 3 条路径,大多数 VLM 的表现都变得更差面对当今支流 VLM 在图像识别上表现极差这1「无情事实」,众多网友先是抛开了自己「AI 辩护律师」的身份,留下了很多较为悲观的评论。

1位网友表示:「SOTA 模型们(GPTo,Gemini.5 Pro,Sonnet,Sonnet.5)表现得如此糟糕真是令人尴尬,而这些模型居然在宣传时还声称:它们可以理解图像?例如它们可以用于帮助盲人或辅导儿童几何学!

在悲观阵营的另1方,1位网友认为这些糟糕的结果可以通过训练和微调轻松解决只需生成大约 100,000 个示例,并用真实数据进行训练,这样问题就解决了没有过,无论是「AI 辩护者」还是「AI 悲观者」都默认了1个事实:VLM 在图像测试中,仍然存在极难调和的事实性缺陷。

论文作者也收到了对更多这个测试是否科学的质疑有网友认为,这篇论文的测试并没有能说明 VLMs「近视」首先近视的人看细节并没有模糊,「看细节模糊」是远视的症状其次,看没有见细节没有能计算交点的数量是两回事计算空白网格的行和列的数量的准确率,没有会因为分辨率的提高而提高,而提高图像的分辨率对于理解这个任务并没有帮助。

此外,提高图像分辨率对于理解这个任务中的重叠线条或交叉点并没有会产生显著影响实际上,这些视觉语言模型(VLMs)在处理这类任务时所面临的挑战,可能更多地它们的推理能力和对图像内容的解释方式有关,而没有仅仅是视觉分辨率的问题。

换句话说,即使图像的每个细节都清晰可见,如果模型缺正确的推理逻辑或对视觉信息的深入理解,它们仍然可能无法准确地完成这些任务因此,这项研究可能需要更深入地探讨 VLMs 在视觉理解和推理方面的能力,而没有仅仅是它们的图像处理能力。

还有网友认为,如果人类的视觉经过卷积处理,那么人类自身也会在判断线条交点的测试中遇到困难更多信息,请参考原论文参考链接:https://arxiv.org/pdf/2407.06581https://news.ycombinator.com/item?id=40926734。

谢谢您的阅读,如果您还有任何问题需要解答,请随时联系我们。

为您推荐

视盲测试图GPT4:这些VLM竟都是盲人?GPT⑷o、Sonnet⑶.5相继败于「视力」测试 这都可以?

视盲测试图GPT4:这些VLM竟都是盲人?GPT⑷o、Sonnet⑶.5相继败于「视力」测试 这都可以?

VLMs 的进步如此之快,以至于让模型找出这张图中有没有一些不合常理的「抽象元素」,例如,让模型鉴定图中有没有...

2024-07-19 栏目:科技派

当前非电脑浏览器正常宽度,请使用移动设备访问本站!