VLA模型,已经成为具身智能当前最热的技术趋势。
近日,谷歌推出了自身最强大的VLA(Vision-Language-Action,视觉-语言-动作)模型Gemini Robotics On-Device。据介绍,这款机器人端侧模型运行时无需依赖数据网络,可以完全在机器人设备本地离线运行,并在多种测试场景中实现了强大的视觉、语义和行为泛化能力,能理解自然语言指令,并完成拉开拉链、折叠衣物等高灵巧度任务。
具身智能领域的关键新范式,VLA让机器人拥有了将语言意图、视觉感知与物理动作编织成连续决策流的能力。记者梳理发现,今年以来,不仅谷歌、微软、Figure AI等海外公司相继发布了自己的VLA模型,银河通用、智元机器人、自变量机器人等国内机器人公司也已在这一领域有所布局。
“机器人版安卓”,50次演示即可学会新动作
今年3月,谷歌DeepMind团队首次推出了新一代专为机器人设计的AI模型Gemini Robotics,被视为“机器人版的安卓”。
这一模型基于Gemini 2.0打造,如同机器人的“大脑”,能够让机器人理解复杂环境、执行精细任务。在谷歌DeepMind展示的演示视频中,Gemini Robotics借助一台双臂机器人,能够流畅地折纸、拉拉链、把皮带安装到齿轮上。
而最新推出的Gemini Robotics On-Device,则是专为在机器人设备本地运行而优化的模型。业内人士分析称,具身智能的发展一直以来受限于对云计算资源的高度依赖,这使得机器人在网络不稳定或无网络的环境中难以独立作业。同时,模型体积庞大,在机器人有限的计算资源上也难以高效运行。
Gemini Robotics On-Device的发布,标志着具身智能从依赖云端算力向本地自主运行的重大转变,为机器人产业的落地应用开辟了新的路径,为机器人在更多场景中的应用提供可能。比如,机器人在无网络的工厂精准装配零件、在灾区废墟中自主救援,这些应用场景都离不开机器人端侧模型的部署。
据介绍,Gemini Robotics On-Device具备三大特点:一是专为灵巧操作的快速实验而设计;二能通过微调来适应新任务进一步提高性能;三是经过优化,可在本地运行并实现超低延迟推理。
此外,谷歌还推出Gemini Robotics SDK,帮助开发者评估Gemini Robotics在设备上的性能,包括在MuJoCo物理模拟器中进行测试。开发者只需50—100个演示即可完成模型评估,让机器人快速学习新技能。
VLA成“必争之地”,这些国内机器人公司也布局了
如果过去十年,机器人领域的焦点先后经历了“看得见”的视觉感知、“听得懂”的语言理解,那么在VLA模型出现之后,机器人开始走向“动得准”的第三阶段。
当下,VLA模型已逐渐成为具身智能行业的共识,被视为连接感知、语言与行为的通用架构。今年6月,在2025北京智源大会上,Physical Intelligence联合创始人兼CEO Karol Hausman表示,VLA是通往通用智能的重要基石,能够让机器人从互联网等多源数据中学习并转化为具体行动。
记者梳理发现,今年以来,不仅谷歌、微软、Figure AI等海外公司相继发布了自己的VLA模型,银河通用、智元机器人、自变量机器人等国内机器人公司也已在这一领域有所布局。
今年6月1日,银河通用正式推出自主研发的产品级端到端导航大模型TrackVLA。这是一款具备纯视觉环境感知、语言指令驱动、可自主推理、具备零样本泛化能力的具身大模型。而在一周后的2025北京智源大会上,银河通用又发布了全球首个面向零售场景的端到端VLA大模型GroceryVLA。
根据现场展示,在现场搭建的1比1还原真实商超场景中,当银河通用创始人兼CTO王鹤向搭载了GroceryVLA的机器人Galbot发出“我又热又饿,帮我拿点吃的”这一指令后,Galbot能够自主精确地移动到准确位置,在货架中为顾客选择饼干和饮料等食物,然后有序地拿取并送到顾客手中,全程无遥控操作,并且无事先采集场景数据。
今年3月,智元机器人发布了首个通用具身基座模型智元启元大模型(Genie Operator-1,简称GO-1),该模型采用了Vision-Language-Latent-Action (ViLLA) 架构,由VLM(视觉语言模型)和MoE(混合专家)组成,实现了可以利用人类视频学习,完成小样本快速泛化。目前,GO-1大模型已成功部署到智元多款机器人本体之中。
此外,智元机器人还联合香港大学推出UniVLA系统。据介绍,UniVLA是一个具备跨机器人本体、场景与任务泛化能力的通用策略学习系统。它通过构建以任务为中心的隐式动作空间,利用语言描述与视频示范进行策略学习,实现从“看视频”、“听指令”到“动手操作”的通用控制。
而作为国内唯一一家从创业第一天就选择了端到端统一大模型技术路线的公司,自变量机器人研发的WALL-A则是世界上最大规模的端到端统一具身大模型。这一模型突破了传统分层架构的噪声传递问题,支持从原始传感器信号到机器人动作的纵向统一和横向任务统一,跨任务泛化能力出色。
今年5月,自变量机器人宣布完成数亿元A轮融资,由美团战投领投、美团龙珠跟投。公司表示,本轮融资将用于持续加速全自研端到端通用具身智能大模型与机器人本体的同步迭代,以及未来多个应用场景的智慧化方案合作和落地。成立起不到一年半时间内,自变量机器人已完成7轮融资,累计融资金额超10亿元。据投资人介绍,公司所坚持的“大小脑统一的端到端大模型”路线,正是多家投资机构青睐自变量机器人的核心原因。
校对:廖胜超