在具身智能赛道半年吸金近200亿元、硬件本体陷入“内卷”的当下,腾讯选择了一条差异化路径。
在近日举行的腾讯全球数字生态大会无锡峰会上,腾讯云高管详解其在具身智能领域的战略思考:不造机器人本体,而是通过软硬件解耦模式,提供从模型、开发工具到底层算力的全栈解决方案,意图做机器人的“大脑”,加快具身智能产业落地。
打造具身智能的“大脑”
今年春节,宇树科技的人形机器人登上春晚,引发全民关注。随后接踵而来的人工智能大会、世界机器人大会、世界人形机器人运动会等热点事件,让具身智能投融资领域迎来新的热潮,国内具身智能企业纷纷开启新一轮融资,大笔热钱涌入。近期,智元和宇树两家估值上的头部具身智能公司进军二级市场,更将具身智能投融资热潮拉至新高。

(腾讯全球数字生态大会无锡峰会期间,腾讯集团副总裁、政企业务总裁李强主题进行演讲。图片来源:腾讯)
腾讯是国内最早布局机器人产业的互联网企业之一,早在2018年腾讯就成立了Robotics X实验室,在过去七年不断推出机器人原型产品。
“具身智能的落地是一个极其复杂、环环相扣的系统工程。从需要巨大投入的基础模型,到成本高昂的场景数据采集,再到流程化工具的训练仿真,以及令人头大的真机部署和升级,每一个环节都很考验技术能力。” 腾讯集团副总裁、政企业务总裁李强表示。
李强称,大量企业能将硬件本体打磨得非常出色,但在软件和智能上的投入却不足,这需要长期、巨大的成本投入。
这种“软硬失衡”现象,成为腾讯切入具身智能的空间。腾讯云副总裁王前分析,过去机械臂或移动机器人主要解决的是“小脑”问题(运动控制),而真正的具身智能需要“大脑”来解决感知与决策问题。
为此,腾讯Robotics X实验室联合福田实验室发布了具身智能开放平台Tairos。李强介绍,这是国内首个以模块化方式提供多模态感知、规划及行动模型的软件平台,通过SDK和API,面向行业开放,相当于为机器人装上“大脑”。
Tairos提供规划大模型、多模态感知模型、感知行动联合大模型三种模型,分别类似于人的左脑、右脑和小脑,可以帮助机器人将任务拆解成一个个可执行的策略步骤,让机器人通过“视觉”和“触觉”等感官认识周遭世界,根据感知到的环境做出安全精准的行动指令。
李强指出,当前最热门的VLA(视觉-语言-动作)大模型打破了具身智能单任务局限,但其训练数据融合视觉、力控、触觉、关节传感、语言指令等多维度信息,单条交互轨迹的数据量就可高达数百兆,“数据训练与存储的能力强弱,直接决定了具身智能企业的模型迭代效率、产品落地速度与规模化竞争力。”
落地仍临挑战
在无锡峰会上,腾讯云披露与具身智能初创企业灵初智能的合作案例。
针对灵初智能在VLA模型训练中的痛点,腾讯云提供了包含HCC高性能计算集群、Turbo CFS高性能文件存储等一站式方案。数据显示,该方案将灵初智能的VLA模型训练效率提升了50%以上,并借助冷热数据分层技术,将其存储成本降低了70%。
灵初智能COO孟福刚告诉记者,数据稀缺是行业普遍面临的挑战,目前来看,大语言模型所依赖的互联网数据已经用尽,但具身智能需要更高阶的“真机数据”和“人类数据”。他透露,国外真机遥操作的数据采集成本高达每小时150美元,成本极高。他预计,行业要实现突破,可能需要积累达到200万小时的人类数据。
为了解决数据和算力难题,灵初智能选择与腾讯云合作。孟福刚表示,在公司第三代模型解决长程任务思考的过程中,腾讯云提供了极大算力支持。同时,灵初智能还使用了Tairos平台,利用其开源开放的特性进行跨业务平台的数据采集和模型训练,提升了团队协作效率。
除了算力与数据,具身智能从实验室走向真实物理世界,还面临着严苛的IT工程化挑战。
“人眨眼一次通常是200到400毫秒,而工业场景要求更快的响应。”李强以与越疆机器人的合作为例,凭借腾讯积累的实时音视频技术(RTC),双方将机器人的端到端时延压缩到了100毫秒以内,大幅提升了操作流畅性。
腾讯云东区解决方案总监余量则指出另一个行业痛点:许多具身智能企业关注深度学习算法,但在IT工程优化上存在短板。“客户提到GPU效率不高,底层硬件出问题,我们调研发现解决后,效率提升了30%-50%。”余量表示,这种对IT工程优化的弥补,是云厂商在提供算力外的重要价值。