在写字楼,机器人“外卖员”手持餐品穿过大堂,自主乘坐电梯完成配送;在博物馆,机器人化身“讲解员”,承担导览与答疑任务;在电影院,机器人为观众制作爆米花,一天可完成上千杯制作……随着具身智能逐步从实验室走向大众生活,科幻电影中的图景正在变为触手可及的现实。
2025年,“具身智能”被写入政府工作报告,随后又纳入“十五五”规划建议,成为我国重点发展的六大未来产业之一。目前,具身智能已初步走出实验室,进入以工厂车间为代表的结构化场景,执行分拣、搬运等简单任务。有关专家指出,接下来需要重点攻克的核心瓶颈是“大脑”的通用与泛化能力,加速具身智能从有限场景迈向更广阔的开放场景,真正实现大规模落地应用。
“现在机器人的‘身体’已经日益成熟了,而真正的瓶颈在于‘大脑’。”工信部信息通信经济专家委员会委员盘和林指出,具身模型是行业迈向大规模应用必须翻越的技术高山,“有了强大的大脑,机器人才能从执行一个简单的动作,进化到自主地完成一串复杂任务。”
在“大脑”的实现路径上,目前行业内已形成一个清晰的共识:简单用大语言模型或多模态模型等虚拟世界基础模型充当“大脑”,难以支撑具身智能在真实物理世界的大范围落地应用。只有面向物理世界的通用具身智能基础模型,才能让机器人更好地融入现实世界,执行复杂任务。
“具身智能基础模型应该是一颗专为真实物理世界打造的‘大脑’。”自变量创始人兼首席执行官王潜指出,这类模型并非虚拟世界基础模型的简单延伸,而是面向物理世界构建的通用模型体系,其核心目标在于提升跨任务、跨场景的泛化能力与通用性。这要求模型具备端到端的系统能力,能够融合多模态感知信息,理解三维空间结构与物理因果关系,并将感知、决策与动作执行紧密耦合,从而在复杂、多变且高度不确定的环境中实现自主操作与持续适应。

作为全球范围内最早一批践行端到端VLA(视觉-语言-行动)具身大模型技术路线的公司,自变量自主研发的「WALL-A」模型构建了统一的认知与行动框架,能够同时处理感知、推理和行动,直接进行跨模态的因果推理和行动决策,让机器人在真实物理世界中像人类一样思考和工作。近期自变量完成由字节跳动、红杉中国等领投的10亿元A++轮融资,成为国内唯一一个同时获得字节、阿里和美团三大互联网大厂投资的具身智能企业。业内人士对此评价称,这代表了端到端VLA大模型这一技术路线获得高度认可。
据业内观察,端到端的VLA大模型正逐步成为具身智能领域的主流技术路径。除了自变量之外,谷歌Gemini robotics、美国具身智能企业PI等同样选择了这条技术路线。其中,自变量率先实现在真实场景开放环境中全程自主配送外卖,创下全球首个基于物理世界基础模型的成功跨越室外与室内场景的移动操作范例,展现出“大脑”在真实世界中的强大适应力。
(图:自变量机器人在真实开放场景中自主送外卖)
随着模型能力的突破,我国在具身智能这一未来产业新赛道上,正从硬件引领向“硬件+大脑”协同并进转变。盘和林表示:“目前业内有这样一种说法:‘硬件看宇树,大脑看自变量’,这反映了我国在具身智能硬件和软件两大领域均已形成核心竞争力。”
正在阅读:谁在定义机器人的“大脑”?端到端VLA模型成行业共识