智源研究院正式推出具身智能领域里程碑式成果:通用具身大脑 2.0与全球首个具身智能SaaS开源框架 2.0。
两大成果均以开源形式发布,引发全球技术社区热议。
其中32B版本凭借时空认知能力的突破,在多项权威基准测试中刷新纪录,为机器人从“单机智能”向“群体智能”演进提供关键技术路径。
攻克三大核心瓶颈
针对主流AI模型在物理场景中的三大瓶颈(空间理解精度不足、时间建模薄弱、长链推理欠缺), 2.0实现全面突破:
空间理解:精准点定位与边界框预测,三维空间关系推理与动态场景图构建。
时间建模:支持多步长期规划与闭环动态调整,多智能体行为协调能力。
长链推理:因果逻辑提取与决策透明化,多步链式推理支持复杂任务分解。
性能表现:
训练方面, 2.0采用的是多模态数据集和分阶段训练策略。
2.0基于全面且多样化的多模态数据集,融合高分辨率图像、多视角视频序列、场景图、3D场景数据及复杂自然语言指令,能全面赋能机器人在具身环境中的感知、推理与行动能力。
2.0使用智源自研的大模型训推一体框架进行大规模分布式训练采用基础时空学习、具身时空增强、具身情境中的推理链训练三阶段递进式训练流程。
使模型能够生成推理链,支持复杂任务的逐步推理和决策,从而在具身情境中实现更高效、更准确的推理和规划能力。
时间推理:在多机器人规划(80.33)、Ego-Plan2(57.23)、 (72.16)中,展现卓越长程规划、闭环反馈及多智能体协作能力,领页跑Qwen2.5-VL、等模型。
2.0 7B模型分别以83.95分和85.75分登顶BLINK和CV-Bench基准测试。.032B模型在、-Bench以及SAT、和-Bench上实现SOTA突破!
.07B模型在Multi-Robot 以81.50分拔得头筹.032B以80.33分紧随其后;.032B在Ego-Plan2(57.23分)登顶,大幅领先GPT-4o等基线;.07B模型则在以72.16分寺魁,双模型凭借优异表现刷新性能上限。
依托跨本体大小脑协作框架.0的多本体规划能力.0已实现多智能体间协作执行任务,支持商超厨房居家等多场景部署。
2.0:
2.0:
#智源开源#具身智能#
323AI导航网发布