130多天后再谈AI!李想透露实现VLA的三个阶段,回应“智驾”是否该叫停
来源:每日经济新闻作者:孙磊2025-05-08 10:14

“AI(人工智能)工具可划分为信息工具、辅助工具和生产工具三个层级。我觉得人工智能变成生产工具,才是真正人工智能爆发的时刻。”理想汽车董事长、CEO李想在5月7日晚的《理想AI Talk第二季》中,分享了他对于人工智能的最新思考,VLA司机大模型的作用、训练方法和挑战,这距离他上一季谈及人工智能已经过去了130多天。

图片来源:企业供图

李想表示:“判断Agent(智能体)是否真正智能,关键在于它是否成为生产工具。只有当人工智能变成生产工具,才是其真正爆发的时刻。就像人类会雇用司机,人工智能技术最终也会承担类似职责,成为真正的生产工具。”

就理想汽车而言,其研发的VLA司机大模型则是以“司机Agent”的产品形态呈现。“用户可通过自然语言与司机Agent沟通,跟人类司机怎么说,就跟司机Agent怎么说。简单通用的短指令由端侧的VLA直接处理,复杂指令则先由云端的VL基座模型解析,再交由VLA处理。”理想汽车方面表示。

此外,李想还回应了“有人觉得辅助驾驶应该被叫停”的问题。“经过多年,从规则算法到端到端+VLM(视觉语言),再到现在真正迈入VLA阶段,现在比较像‘黎明前的黑暗’。我觉得黎明马上就要来了。但是会先经历一个黑暗的过程,之所以有黑暗是因为要迎来黎明。”李想说。

VLA是端到端+VLM的合体

所谓“VLA”,即视觉语言动作模型(Vision-Language-Action Model)。最早由DeepMind于2023年提出,应用在机器人领域,输入给定的文本和视觉数据,输出机器人可执行的动作,天然便带有AI与物理世界交互的基因。

与当前理想汽车使用的“着重于图像和场景的理解,作为智驾决策规划输入,让车辆行为更合理”的VLM模型不同,VLA模型会将端到端与多模态大模型结合得更彻底,能够根据感知直接生成车辆的运动规划和决策,更加接近“图像输入、控制输出”的端到端智驾理想状态。

在业内看来,VLA模型可看成是端到端+VLM的合体,其遇到一些复杂的交通规则、潮汐车道、长时序推理等特殊场景时,会比过往理解、应对得更好。“对于理想汽车而言,VLA是一个司机大模型,像人类的司机一样去工作的一个模型。”李想说。

据悉,就推理时长而言,在传统rule-based(基于规则)方案下,智能辅助驾驶只能推理1秒钟路况信息然后做出决策控制;端到端1.0阶段系统能够推理出未来7秒的路况,而VLA模型则能对几十秒路况进行推理。

李想透露,达到VLA模型阶段并非突变的过程,而是进化的过程,经历了三个阶段:第一阶段,理想汽车自2021年起自研依赖规则算法和高精地图的辅助驾驶,类似“昆虫动物智能”。第二阶段,理想汽车自2023年起研究,并于2024年正式推送的端到端+VLM辅助驾驶,接近“哺乳动物智能”。

“在端到端的基础上,到第三阶段,VLA将开启‘人类智能’阶段。它能通过3D和2D视觉的组合,完整地看到物理世界,而不像VLM仅能解析2D图像。同时,VLA拥有完整的脑系统,具备语言、CoT(Chain of Thought,思维链)推理能力,既能看,也能理解并真正执行行动,符合人类的运作方式。”李想说。

有观点认为,伴随着VLA模型的出现,理想汽车或放弃端到端技术。对此,李想表示:“没有放弃,端到端是VLA的基础。如果你把端到端想象成一个个具身智能执行的环节,那它其实就是VLA的A(action行动)的部分。只是我要多语言的部分,还要更多更强的3D vision和高清2D vision的部分。”

“现阶段VLA是能力最强的架构”

值得注意的是,VLA近来一直受到自动驾驶领域的热捧,除理想汽车外,元戎启行等企业也在该领域进行布局。有行业人士表示,VLA模型对智能辅助驾驶的演进意义重大,在L2辅助驾驶到L4自动驾驶的飞跃中,VLA可能会成为关键跳板;另一方面,VLA模型也可能成为智能驾驶走向更广阔的具身智能行业的连接点。

“目前的L2、L2+组合驾驶辅助仍属于辅助工具阶段,而VLA能够让AI真正成为司机,成为交通领域的专业生产工具。对理想汽车而言,未来的VLA就是一个像人类司机一样工作的司机大模型。”李想说,“我自己认为VLA(司机大模型)能够解决全自动驾驶,至于VLA是否是效率最高的方式还要打个问号。但现阶段VLA是能力最强的架构。”

值得一提的是,行业也存有共识,VLA模型的上车难度不小——将端到端与VLM模型二合一后,车端模型参数变得更大,既要有高效实时推理能力,同时还要有大模型认识复杂世界并给出建议的能力,对车端芯片硬件有相当高的要求。

“理想汽车有编译团队,有芯片的能力,有板子设计能力,有操作系统能力。所以我们是能够把两个Orin-X带宽做到足够的大,它同样可以跑同等规模的VLA的模型。”李想表示,“我自己还是认为,规模小的时候可能无所谓,规模大的时候基本功和能力永远是无法逾越的。”

值得注意的是,李想的这番言论也折射出当前智能辅助驾驶行业的一个现状——技术路径的快速迭代升级与竞争态势的加速转变,对那些尚未在端到端解决方案领域建立优势的企业而言,形成了更高的准入壁垒,使得后来者居上的可能性显著降低。

“今天很多企业做端到端都很吃力,是因为在规则算法的时候都没做好。”李想说,“如果你规则算法都做不好,你根本不知道怎么去做端到端;如果你端到端没有做到一个非常极致的水平,你连VLA怎么去训练都不知道。”

“美国很多顶级的公司,像苹果、特斯拉,他们基本功特别扎实,这个是我们真正要去学的。尤其是在今天这种内卷环境下,包括外部不确定的环境下,这时候更是每个企业扎扎实实练基本功最好的时候。而且到了人工智能时代,基本功就更是不可跳跃的。”李想补充道。

责任编辑: 胡青
声明:证券时报力求信息真实、准确,文章提及内容仅供参考,不构成实质性投资建议,据此操作风险自担
下载“证券时报”官方APP,或关注官方微信公众号,即可随时了解股市动态,洞察政策信息,把握财富机会。
网友评论
登录后可以发言
发送
网友评论仅供其表达个人看法,并不表明证券时报立场
暂无评论
为你推荐
时报热榜
换一换
    热点视频
    换一换