中科院自动化所新基准测试：多图数学推理难倒一众大模型_mv

文章图片

文章图片

人工智能的浪潮席卷全球，大模型在各个领域展现出惊人的能力。
看似无所不能的大模型，真的已经征服了所有挑战吗？
最近，一项关于多图数学推理的研究，揭示了大模型不为人知的“弱点” 。
中国科学院自动化研究所的科学家们构建了一个全新的测试基准，结果发现，即便是目前最先进的大模型，也在这项测试中“全军覆没” 。
这究竟是怎么回事？
让我们一起深入探究。
近年来，多模态大模型在数学推理领域展现出极大潜力，但现有的测试基准大多局限于单图推理，与现实世界中复杂的多视觉数学应用相去甚远。

为了弥合这一差距，中科院自动化所推出了多图数学推理数据集MV-MATH ，这项研究已被CVPR 2025接收。
【中科院自动化所新基准测试：多图数学推理难倒一众大模型】MV-MATH包含2009个从K-12教育场景中提取的真实数学问题，涵盖选择题、填空题和多步问答题三种类型，涉及解析几何、代数、度量几何等11个数学领域，并根据难度分为三个等级。
MV-MATH的独特之处在于它的多视觉场景设计。
每个问题都包含2到8张图片，与文本交错呈现，构成更贴近现实的复杂场景。
为了确保数据集的质量，每个样本都经过至少两名标注者的交叉验证，标注内容包括问题、答案、详细分析以及图像关联性。
此外， MV-MATH还引入了图像相关性标签，将数据集分为相互依赖集（MD）和独立集（ID）两个子集。
MD子集中的图像相互关联，需要综合理解；而ID子集中的图像相互独立，可以单独解释。

研究团队使用MV-MATH对24个主流多模态大模型进行了测试，结果显示，即使是最先进的模型，在多视觉数学任务中也面临巨大挑战。
表现最好的Claude-3.5整体准确率仅为33.9% ，远低于人类水平（76.5%）。
其他模型，如GPT-4o（32.1%）、Gemini-1.5-Pro（29.1%）和Qwen-vl-max（26.9%），也均未达到令人满意的水平。
开源模型LLaVA-OneVision-Chat-72B的准确率为26.2% ，与Qwen-vl-max相差不大。
值得一提的是，类o1模型QVQ-72B-Preview的性能为29.3% ，仅次于GPT-4o ，这表明慢思考系统在多图推理任务上也有一定潜力。
更进一步的分析揭示了模型在不同领域、不同难度级别下的表现差异。
例如， Claude-3.5在算术领域的准确率最高，达到54.2% ，但在组合几何领域仅为27.0% 。

这表明，需要复杂图像理解和推理的领域对大模型来说仍然是难以攻克的堡垒。
研究还发现，对于闭源模型， CoT和few-shot对MV-MATH多图推理并不一定有效，而对于开源模型， CoT和few-shot都会导致性能下降。
在图像关联性方面，大多数模型在MD子集上的性能低于ID子集，这表明处理相互依赖的图像信息对模型来说更具挑战性。
例如， Gemini-1.5-pro在MD和ID子集上的性能差距高达7.8% 。
这凸显了当前大模型在处理数学多视觉环境中跨图像相互依赖关系方面的局限性。
图像输入方式也对模型性能产生了影响。
实验结果表明，序列输入比合并输入更有效，这说明保留图像的位置和顺序信息对于多图推理至关重要。

序列输入的优异性能突显了结构化视觉信息在增强模型理解和处理复杂数学场景能力方面的重要性。
最近， OpenAI o1、DeepSeek-R1等慢思考模型在文本推理上展现出强大的性能，引发了广泛关注。
视觉大模型的慢推理范式仍未确立。
这项研究通过大量实验证实， MLLM在复杂多视觉感知与图像交叉理解上仍然存在困难，在多图数学推理上还有很大的改进空间。
这项研究的意义在于全面评估MLLM在多视觉场景下的数学推理能力，推动多图数学推理的进一步发展。
它揭示了当前大模型在处理复杂视觉信息和进行高级推理方面的不足，为未来的研究指明了方向。
那么，如何改进模型架构、优化训练策略，让大模型真正掌握多图数学推理能力，将是未来研究的关键所在。
我们是否需要重新思考模型的设计理念，或者探索更有效的训练方法？

这值得我们深入思考和探讨。

中科院自动化所新基准测试：多图数学推理难倒一众大模型

推荐阅读

一天发多少短信会封号

羊绒裤怎么洗

天天敷面膜为什么皮肤还是干

信托为什么这么赚钱

牵牛花的种子是什么样子的牵牛花的种子是什么样的

ds砂浆是什么砂浆

煮方便面怎么打荷包蛋不起沫煮面什么时候打荷包蛋

奥运会的由来奥运会的由来简述

美术学专业主要学什么有哪些课程

伟大的名言

为什么四年制大学叫本科

四川有哪些大学

客厅壁灯怎么走线客厅壁灯怎么接电

春节期间滨州供电设立多个故障报修渠道网通电话故障报修电话

杭州到沪广高铁什么时候通车，沪杭高铁什么时候开通

不吵不闹处理得优雅又体面怀孕了不吵不闹的小三