2025年4月,美国斯坦福大学“以人为本人工智能研究院”发布了《2025年人工智能指数报告》( Index 2025),涵盖了研发、技术性能、负责任人工智能、经济影响、科学医疗、政策、教育以及社会舆论等主题。第二章“技术性能”立足于最新的基准测试数据与比较分析,系统呈现了人工智能系统在速度、准确性与推理能力上的演进轨迹。该章节详细梳理了人工智能多重维度的技术进展,并剖析了复杂推理的局限与人工智能体的初步潜力。启元洞见编译了该章节的主要内容,为读者提供参考。
一
2024年人工智能概述
本节对2024年人工智能技术性能的发展进行了全面回顾,涵盖了关键模型与数据集的发布、整体性能状况、模型开放程度的演变、中美模型表现差距的缩小、更小模型的崛起、前沿性能的趋同以及基准测试方法的不断更新与完善。
(一)时间表:重要模型和数据集发布
报告列举了2024年间人工智能领域最具影响力的模型与数据集发布事件,涵盖从 LM 2到-V3等逾30项成果(图1)。这些发布内容展示了多模态理解、超大上下文窗口、视频与音频生成、开放权重模型和检索增强生成等多个技术方向的最新进展。
图1 人工智能指数指导委员会选出的 2024 年最值得关注的模型和数据集(限于文章篇幅,图为节选,详见原报告P88-93)
(二)人工智能性能状况
2024年,人工智能系统在多项传统与新兴基准上继续缩小与超越人类的差距。图2展示了相对于人类基线,人工智能在从图像分类到多学科推理等8大类任务上的进展轨迹。报告指出,即使在竞赛级数学和视觉常识推理等领域,2024年最先进系统的表现也已逼近或超越人类水平。
图2 选择人工智能指数技术性能基准与人类性能对比
(三)封闭式与开放式权重模型
去年,领先的开放权重模型在多项主要基准上明显落后于封闭权重模型。但至2024年底,这一差距已几近消失。图3显示,2024年1月,顶级封闭权重模型在 Arena 上领先开放权重模型8.0个百分点;至2025年2月,该差距仅余1.7个百分点。类似趋势也体现在MMLU、、MMMU与MATH等基准中。开放权重生态的快速壮大与多元发展,有力促进了人工智能研究的透明度与创新活力。
图3 顶级封闭模型与开放模型在 Arena上的性能对比
(四)中美模型性能对比
2023年,领先的美国模型在多项基准测试上的表现,分别领先中国同行17.5、13.5、24.3和31.6个百分点;而到2024年底,这些差距已分别缩小至0.3、8.1、1.6和3.7个百分点。-R1的推出,更以较低的硬件资源需求在多项基准中取得超越,进一步凸显了中国研究力量的崛起。
图4 中国与美国顶级模型在部分基准测试上的性能对比
(五)更小模型带来更高性能
2024年见证了小型高效模型的井喷,典型代表包括GPT-4o mini、o1-mini、 2.0 Flash 8B等。小模型的快速崛起,不仅降低了推理成本与延迟,也显著降低了中小企业与研究团队的准入门槛。
(六)模型性能在前沿趋同
随着、 、、xAI等多方竞争上岗,前10名模型在 Arena上的Elo分数差距持续缩窄。这种高度竞争格局表明,行业缺乏持久的技术护城河,推动了算法、推理范式与高效硬件等全方位进步。
图5 各模型供应商在 Arena上的顶级模型表现
(七)基准测试方法的进步
传统基准如MMLU、GSM8K与已趋于饱和,迫使社区探索更具挑战性的测试。报告重点提及“人类最后的考试”(HLE)、及等新基准,其中人工智能系统在这些高难度测试中的表现远低于人类。此类基准的出现,有助于发现人工智能在复杂逻辑与跨学科推理方面的短板,促进未来研究的方向性调整。
二
语言
自然语言处理(NLP)领域是人工智能技术应用与研究的核心之一,本节从理解与生成两大维度展开,涵盖了多任务语言理解、生成质量与用户偏好评估、自动基准创建以及检索增强生成等内容。
(一)大规模多任务语言理解(MMLU)
MMLU基准囊括57门学科,评估大模型在零样本或少样本场景中的知识掌握能力。从2019年首批测试模型到2024年参与测试的o1-,平均准确率提升了64.4%,但该基准依然存在噪声题目与文化偏差等局限。2024年,MMLU-Pro作为改良版本推出,通过剔除琐碎题目、增加复杂问题与答案选项,进一步推动了模型理解能力的上限。
图6 MMLU-Pro的总体精度,显示了该基准的性能趋势,-R1获得迄今最高分
(二)响应案例: Arena
大模型系统组织(LMSYS)于2023年推出的 Arena,用以收集公众对不同大模型生成文本的偏好投票,通过用户的匿名投票对阵选出首选模型。2025年初排行前十模型的Elo分数差距仅剩5.4%,凸显语言模型在生成质量与人类偏好匹配度方面的高度趋同。
图7 Arena 语言模型Elo评分演变
(三) 自动基准Arena-Hard-Auto
为应对模型迭代速度过快而带来的基准滞后问题,加州伯克利的团队开发了一个同名自动化基准生成流水线,LMSYS借此推出Arena-Hard-Auto,这是一个由500条挑战性用户查询构成的自动指令调整评测平台。GPT-4 Turbo 担任评委,将候选模型响应与基准模型对比,2024年11月,o1-mini、o1-、 3.5-分列前三;风格控制排行榜中, 3.5-夺魁。但对此类自动基准仍有题目分布不均的批评,超半数问题集中于编码与调试场景。
图8 Arena-Hard-Auto 原始排行榜表现
图9 Arena-Hard-Auto 风格控制排行榜表现
(四)
艾伦人工智能研究所与华盛顿大学研究者合作推出的 ,用于评估大语言模型在真实世界开放式查询下的回答性能。该基准自动化程度高,覆盖多语言、多题型,旨在弥补学术基准对现实场景的局限。
(五)检索增强生成(RAG)与混合评估
RAG将语言模型与外部检索有机结合,提升回答事实性与领域覆盖度。谷歌、Meta与等团队基于RAG构建了多种检索生成体系,凸显了应对长尾知识需求的有效性。此外,等混合评估框架也被提出,通过集成多源真实用户查询与传统标准题库,对模型在多场景下的综合表现进行系统评测,提供了更全面的能力画像。
图10 的评估框架
三
图像和视频
本节聚焦计算机视觉与文本到图像/视频生成技术的发展与评估方法,涵盖了视觉竞技场、常用图像理解基准、多模型视频生成器亮点与多模态推理基准等内容。
(一)视觉理解基准
主流基准包括、VCR(视觉常识推理)与视觉子集等,用于测试分类、检测与多模态推理能力,本次年度报告新增,对视频与多视角理解提出更高要求。
(二)视觉竞技场( Arena)
Arena的视觉分支允许用户对逾50种图像生成模型进行投票,比拼生成质量与创意。截至2025年初-2.0-Flash–Exp-1219排名第一,领先第四名-4o-仅3.4个百分点。
图11 视觉竞技场模型 Elo 评分
(三)视频时代的崛起
2024年,人工智能视频生成技术取得突破: AI的 Video 3D/4D、的Sora、Meta的Movie Gen 与的Veo 2相继发布,能够生成高分辨率、长时长且音画同步的视频示例。这些系统与2023年首批样片相比,在帧间连贯性、细节保真度与时长上均有显著提升,为短视频创作、虚拟制作与影视预览等领域开启新篇章。
图12 部分人工智能视频生成模型及其案例对比
四
演讲
本节聚焦语音识别与唇读技术的性能对比,涵盖常用自动语音识别(ASR)基准与LSR2(唇读句子2)等,报告通过WER(词错误率)与CER(字符错误率)评估模型在多语言和多噪声环境下的鲁棒性。
图13 来自“BBC唇读句子2数据集”的静态图像
五
编码
编码能力评测是检验大模型工具化与实用化的重要维度,本节涵盖了、SWE-bench、与编码版 Arena排行等多种方法。
(一)与SWE-bench
普林斯顿大学及芝加哥大学于2023年合作推出的SWE-bench新增了高难度编程挑战,测试模型在结构化与自然语言提示下的解决力。2023年人工智能系统仅能解决4.4%编程问题,至2024年跃升至71.7%。它与 2021年推出的互为补充,其仍是衡量函数式代码完成的主要基准。
(二)
要求模型在139个库与7个领域中实现1140个细粒度函数调用与文档驱动的编码任务。在该基准硬子集“”和“”任务中,最佳模型仅能取得35.5%的通过率,凸显了人工智能系统在达到人类水平的编码能力方面仍然存在差距。
(三) Arena 编码版
Arena排行榜也新增编码赛道,让社区投票评选首选编码模型。-Exp-1206以1369分领跑,其次为 o1与-V3,提供了使用者偏好视角下的编码能力评估。
图14 Arena 编码版的Elo评分
六
数学
数学能力一直是衡量人工智能推理深度与精确度的重要维度,本节涵盖从小学算术到奥林匹克级竞赛的多级别测试。
(一)GSM8K:基础算术推理
GSM8K是一个包含约8000道小学数学文字题的数据集,要求模型生成多步骤算术解答。2024年, .5 变体在该基准上取得了97.72%的最高准确率,较2023年91%得到大幅提升。其他如、Meta与Qwen等新兴模型也相近96%的得分,显示该基准已接近饱和。
图15 GSM8K 文字题示例
(二)MATH:竞赛级数学题
MATH数据集包含12500道竞赛级难度的数学问题,初版模型仅能解出6.9%,而到2025年1月,的o3-mini(高配置)模型解出了97.9%的问题,领先于人类基线90%,标志着人工智能在该领域已全面超越人类。
(三) Arena 数学排名
LMSYS的 Arena为公众提供数学回答对比投票,涵盖逾181款模型与34万张选票。2024年底, o1变体位列榜首,其次为-Exp-1206和-V3
(四):高阶数学挑战
为突破传统基准饱和,Epoch AI推出了,收录原创高难度问题,通常需数小时乃至团队合作方可解决。首次评测中, 1.5 Pro只解决了2.0%题目,远低于其他数学基准;而据称, o3在该基准上达到了25.2%。创建者期望,该基准在未来几年里持续对标考验尖端系统。
图16 问题示例
(五) 学习与定理证明
推出的与系统,将神经模型与交互式证明结合,分别在国际奥赛几何题与Lean定理证明库中取得显著成绩。在30道几何题中解出25道,超越银牌选手平均水平;则能自主生成并验证假设,为人工智能定理证明开辟新路径。
七
推理
推理基准考察人工智能在常识、跨学科与通用学习任务中的能力,本节精选了其中几项代表性测试。
(一)GPQA:问答级推理
GPQA包含448道难以依赖检索回答的选择题。2023年,GPT-4在钻石级数据集上仅得38.8%,低于人类验证员81.2%;2024年, o3一举攀升至87.7%,首次超越人类基线。
图17 GPQA问题示例及其在钻石级数据集中的准确率变化
(二) ARC-AGI:通用学习能力
ARC-AGI由François 提出,强调“零预备”通用学习:每个任务独特且模型无法预训练准备。首次评测最佳系统得分20%,四年后仅升至33%;但 o3在高预算条件下获得了75.7%,更在私人保留集上达87.5%,显示广义推理能力突飞猛进。
(三)人类最后的考试(HLE)
为进一步拉开人工智能与人类的差距,HLE收录2700道跨学科难题,均由领域专家设计,旨在维持多年挑战性。
图19 HLE 跨学科问题示例
八
人工智能体
人工智能体日益具备在虚拟与具身环境中自主完成复杂任务的能力,本节介绍三大代表性基准。
(一)(VAB)
VAB针对嵌入式、图形用户界面与可视化设计智能体的三类场景,将其置于动态环境中进行导航与交互。2024年,GPT-4o成为最多任务制胜的顶级模型,成功率约36.2%,而大多数专有模型不足20%,表明当前系统尚难直接部署到复杂代理场景。
图20 各模型在VAB数据集上的成功率比较
(二)RE-Bench:开放式ML研究环境
RE-Bench由Wijk等人推出,包含七个与60多位专家共同构建的开放式研究任务,如内核优化与缩放律实验等。短预算(2小时)下,顶级人工智能得分是人类的四倍;随时间延长至32小时,人类又以两倍优势反超。
图21 RE-Bench 平均归一化分数对比图
(三) GAIA:通用助手能力
Meta于2024年推出GAIA,含466道多步骤、需多模态处理与网页操作的问题。初期测试中,GPT-4插件版仅答对15%,人类受访者92%;到2024年末,人工智能系统最高达65.1%,仍有较大提升空间。
九
机器人与自动驾驶
机器人与自动驾驶融合了人工智能感知、决策与控制,本节梳理关键基准与创新趋势。
(一) :机器人学习基准
自2019年推出以来,收录100个真实任务,如抓取、烤箱操作等,研究者通常使用18个标准化子集进行评估。2025年,模型以86.8%的成功率刷新最高纪录,比2024年提升2.8个百分点。
(二)仿人机器人
2024年,多家机构发布类人仿生机器人(如Digit 2.0、Tesla Bot V2)在行走、攀爬与物体操作上取得突破性进展,为人形机器人真实部署奠定基础。
图23 AI公司的机器人正在执行复杂任务
(三)发展与基础模型
2023年,推出PaLM-E和RT-2,这两个基于变压器架构的机器人模型,通过同时训练操作数据和语言数据,能够进行机器人操作和文本生成。2024年,其新模型推出了自主生成训练数据的能力,至今已生成77000个试验数据,涵盖6,650项任务。SARA-RT通过“上训练”技术提升了变压器模型的计算效率,显著加速了3D环境处理。ALOHA和分别推动了机器人精细操作和少数据强化学习,展示了在机器人领域的创新,特别是在多模态任务和数据高效利用方面的进展。
图24 ALOHA训练的机器人在各项复杂任务中的成功率
(四)自动驾驶汽车
自动驾驶技术近年来取得显著进展,Waymo和等公司在旧金山和凤凰城运营自动驾驶出租车。Waymo已在多个大城市提供每周 15 万次付费乘车服务,计划扩展到更多城市。此外,中国的自动驾驶也加速发展,百度 Go和 Pony.AI等公司已在多个城市部署自动驾驶车队。自动驾驶卡车的测试也在进行中,尽管商业化仍面临挑战。
(五)安全标准与新基准
新研究显示,Waymo的自动驾驶车辆比人工驾驶车辆更安全,事故发生率大幅降低。新基准如、和提供了更全面的测试,评估自动驾驶系统在多种复杂环境中的表现,推动了技术的安全性和可靠性提升。
图25 凤凰城和旧金山的 Waymo司机与人类在事故基准上的对比
323AI导航网发布