多模态模型‌ 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力

默认分类6小时前发布 admin
3,491 0
星河超算AI数字人

「三个点电荷 + Q、-2Q 和 + 3Q 等距放置,哪个向量最能描述作用在 + Q 电荷上的净电力方向?」

在解这道题时,我们可以通过绘制受力分析草图轻松解决。但即使是先进的多模态大语言模型,如 GPT-4o,也可能在理解「同性相斥」的基本物理原则时,错误地判断斥力的方向(例如,错误地将 + 3Q 对 + Q 的斥力方向判断为右下方而非正确的左上方)。

这个看似简单的物理问题,却暴露了多模态大模型一个「致命缺陷」:当前的 MLLMs 仍然无法进行需要深度视觉与文本融合的复杂多模态推理!一项最新研究推出的 EMMA 基准测试,如同一面「照妖镜」,揭示了即使是顶尖 MLLMs 也在这关键能力上显著不足。

目前该研究已被 ICML 2025 接收为 ,代码数据已全部开源!

目前已有多个模型 / 方法在 EMMA 上验证其多模态推理能力,研究发现:即使最先进的模型 ——-2.5-pro-exp-03-25 ,或者是能够进行视觉工具调用的 o3/o4-mini 模型在 EMMA 上的表现仍然落后人类专家超 20%!

研究者们还邀请了人类专家完成题目,并对比了人类专家与 AI 模型的解题过程。可以看出人类专家在面对 EMMA 中的复杂问题时,倾向于借助简洁的手绘草图进行「视觉化思考和空间模拟」,高效地找到解题路径。与之形成鲜明对比的是,模型(如 o3)则依赖于详尽的、结构化的文本步骤进行推理。这种差异凸显了当前 MLLMs 在处理多模态信息时,更偏向于运用其强大的语言逻辑能力进行处理,而较少展现出类人的、以视觉为核心的直观洞察和灵活高效的解题策略。

多模态模型‌ 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力

EMMA:深度考量 MLLMs 的多模态推理极限

将文本与图像信息有机结合、协同进行推理,是人类智能的一项核心能力。然而,多模态大语言模型是否真正具备这种深层次、非割裂的多模态推理能力,至今仍缺乏系统而深入的研究。当前的主流基准测试往往偏重于「文本主导」的推理过程,或仅需利用「浅层的视觉感知」而非「视觉推理」便可解决问题,难以全面衡量模型在复杂任务中对视觉与语言信息的整合能力,因而无法有效评估其真实的多模态理解与推理水平。

为应对这一挑战,研究者们提出了 EMMA—— 一个专为评估 MLLMs 在数学、物理、化学和代码这四大领域进行原生多模态推理而设计的增强型基准,具体如下图所示。EMMA 中的任务要求高级的跨模态推理,这些问题无法通过在单一模态中独立思考来解决,从而为 MLLMs 的推理能力提供了更严苛、更全面的「试金石」。

EMMA 不仅仅是一个新的评估数据集,它是一套精心设计的「考题」,旨在全面考察 MLLMs 在以下方面的能力:

该研究具有以下几个主要发现:

数据集构建:严谨筛选与细粒度剖析

EMMA 的构建过程经过精心设计,旨在确保其能够有效评估深层多模态推理能力。

最终得到 EMMA 数据集的关键统计信息及数据分布如下:

实验与结果:SOTA 模型面临严峻考验

多模态模型‌ 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力

研究团队在 EMMA 上评估了 10 个 SOTA MLLMs,包括开源模型(如 Qwen2-VL, LLaVA-, )和闭源模型(如 GPT-4o, 3.5 , 2.0 Flash/, o1)。

错误分析:视觉推理是核心症结

未来展望:跨模态智能

EMMA 基准系统性地揭示了当前多模态智能在跨越语言与视觉鸿沟时所面临的具体挑战与瓶颈,并通过设计精细的任务集合,为下一代跨模态模型的发展明确了实践方向与关键突破点。

尽管当前的多模态模型取得了显著的进步,但仍面临着两个重要的技术瓶颈:

因此,未来多模态智能的发展趋势必将从现有的语言主导推理模式逐步转向更深入的模态间动态协作模式。具体而言,下一代模型不仅需要具备视觉动作推理(如调用图像编辑工具辅助推理)的能力,更要实现视觉状态的主动更新和跨模态反馈,从而高效地驱动下一轮语言 – 视觉交互推理。EMMA 所揭示的这些具体挑战与路径,将有助于研究人员更清晰地设计新型多模态模型结构与训练策略,真正推动跨模态智能向更高层次迈进。

323AI导航网发布

© 版权声明

相关文章

星河超算AI数字人

暂无评论

暂无评论...