两款新车,一场会议,小鹏的AI帝国逐渐成形。这个帝国里,没有激光雷达。
近日,小鹏汽车自主研发的图灵芯片首次上车,搭载在小鹏中型SUV G7上。据小鹏汽车董事长何小鹏介绍,一颗图灵芯片的有效算力,等同于三颗英伟达Orin X,整台G7的有效算力超过2200Tops,是L3级自动驾驶的门槛。
另一款车是小鹏Mona M03的顶配版。它于两周前上市,相比标准版配备了两颗Orin-X芯片,算力达508TOPS,小鹏称其为“L2级自动驾驶的门槛”。
借着发布会,何小鹏以及小鹏汽车多位高管集中表态——小鹏将摘下激光雷达,因为激光雷达“看不远、干扰多、帧率低、穿透性差”。从今以后,小鹏将采取纯视觉方案。
在最近结束的全球计算机视觉顶会CVPR2025上,小鹏世界基座模型负责人刘先明发表了演讲,进一步解释了小鹏成为“纯视觉坚定派”的逻辑。他指出,通过定制AI编译器、协同设计模型架构等方法,小鹏的VLA和VLM大模型与图灵芯片已实现耦合,世界基座模型即将迎来质变。
纯视觉与激光雷达方案的恩怨由来已久。2013年,马斯克曾和谷歌讨论过是否使用激光雷达,当时一台激光雷达的价格几乎等于一辆特斯拉。但12年后,激光雷达的成本下降了400倍,禾赛CEO李一帆在接受21世纪经济报道记者采访时表示,他们已经将激光雷达的价格压到200美元。
因此,这边小鹏将纯视觉的高阶智驾能力下放到13万元起的Mona Max;另一边,激光雷达也下探到了这个价格区间:3月7日,搭载激光雷达的广汽丰田铂智3X发布,售价13.98万元起;3月10日,搭载激光雷达的零跑B10发布,售价12.98万元起。在3月份安徽小米SU7智驾事故后,更多车企转向激光雷达方案。
何小鹏却选择挑战“多一个激光雷达,就多一份安全冗余”的惯性思维。他试图重新定义辅助驾驶的标准:不是配置,“算力”才是检验辅助驾驶的第一标准,智能驾驶好不好,先看算力多少,再看模型参数多少。
这两种方案自诞生以来,一直在质疑中成长。在智驾平权的下半场,L3量产的前夜,纯视觉与激光雷达方案的竞争进入白热化阶段,终局将浮出水面,而衡量两者优劣的标准只有一个:安全。不是哪种方案更前卫、更时髦、上限更高,而是谁能拥有更稳定的下限、能更大概率地防止事故的发生。
自动驾驶工程师的3个质疑
小鹏的纯视觉方案,核心只有一个——“大脑”。
何小鹏表示,在一双“更聪明的眼睛”和一个“更强大的大脑”之间,他们选择了后者。所谓“大脑”,意指小鹏打造的多模态世界基座大模型。
为了打造“最强大脑”,小鹏的思路可以总结为“大数据+重算力+轻雷达”。
“大数据”方面,刘先明透露,小鹏目前已经训练了超过40万小时的视频数据,视频数据量将在今年增加到2亿clips;“重算力”方面,小鹏智能算力集群正向两万卡水平前进,云端集群运行效率常年保持在90%以上。
最后则是“轻雷达”,小鹏专门解释了摘下激光雷达的理由:
第一,去掉激光雷达后,节约了20%的感知算力,模型反应更快。小鹏自动驾驶产品高级总监袁婷婷曾在社交媒体发文表示:“去激光雷达后使计算简化,端到端的延时大幅降低,视觉的响应速度是激光雷达的近2倍,大幅度提高城市辅助驾驶的安全级别”;
第二,小鹏汽车的AI鹰眼智驾方案中,摄像头是前向+后向800万像素,结合Lofic技术,“感知距离提升125%,识别速度提升40%,看得比人类远,在夜间、大逆光、雨雪天等看得比人眼更清楚”;
第三,何小鹏说,“想要做到全域(安全),环视的能力特别重要……(纯视觉)能让用户获得360度的安全,不光是夜晚安全,在城区、下雨、周边有人有车也安全”。
一位国有车企的汽车工程师告诉记者,采取哪种技术路线都是主机厂基于自身的组织架构以及已有的技术积累作出的最优选择。
另一位感知层产品经理Hill在一家综合型智能汽车Tier 1供应商工作,其公司能为车企提供软硬件全栈解决方案,曾连续几年入选全球汽车零部件百强。他认为,小鹏可能觉得加上激光雷达,作用不是特别大,对于它差异化营销的价值也不大,所以干脆选择纯视觉方案,着重突出自身模型、算力、数据的先进性。
需要注意的是,小鹏摘掉激光雷达不是出于成本考虑,因为双Orin-X芯片方案和自研图灵AI芯片的价格显然更加高昂,这更能说明两款新车如此配置,是为了与小鹏AI思路一脉相承。小鹏的野心是打造一个AI帝国,今年要在中国内地率先实现L3落地,明年人形机器人IRON要进入工业化量产。在未来,用户将会为小鹏不同的AI能力付费。
但一些专家对小鹏的纯视觉方案提出了疑问。
比如,小鹏宣称“去掉激光雷达能节约20%算力,让模型反应更快”,但自动驾驶感知和控制系统工程师“雪岭飞花”并不同意,其同名微信公众号,在自动驾驶领域颇有影响力。他表示,激光雷达在控制系统里面占多少算力,取决于系统在设计之初想如何利用激光雷达点云数据,可能占20%、80%、10%等等,每个系统都不一样。
另外,有些硬件缺陷无法通过软件来弥补,去掉激光雷达之后,为了弥补视觉在感知层的弱项,可能需要视觉花费更多的额外算法。随着端到端架构的深入,所有视觉、激光雷达、毫米波雷达等感知信息都会直接送到大模型做编码,增加激光雷达带来的额外感知算力将非常有限,也不会多花多少时间。占用算力的主要是大模型,而不是激光雷达,不见得拿掉它后模型反应速度会更快。
还有,小鹏称其AI鹰眼智驾方案是行业首个采取单个像素LOFIC架构,能比人看得更清、更远等等。
该技术最早由荣耀手机提出,旨在解决传统影像传感器在高光场景下易过曝的问题,让拍摄出的照片更加接近现实中的光影效果。“雪岭飞花”告诉记者,LOFIC技术工艺复杂、面积大、成本高,而且从荣耀Magic6至臻版的商用结果来看,并没有展现出如官方宣传般的动态范围提升效果。
最后,何小鹏认为视觉能做到“环视、360度的安全”,“雪岭飞花”觉得,是不是360°取决于传感器的布置,视觉和激光雷达,毫米波雷达都可以做到。
纯视觉VS激光雷达:一直被质疑,一直在进步
小鹏的纯视觉方案中,依然有毫米波雷达和超声波雷达,相较之下,特斯拉才是真正的“纯视觉”:只用摄像头,一颗雷达也没有。
作为特斯拉车上唯一的传感器,摄像头存在两个固有缺陷:第一,没有深度信息,所接受的只是一连串二维图像;第二,易受夜晚、大雨、浓雾等极端天气影响。
为了弥补这两个缺陷,特斯拉一直优化摄像头背后的算法和技术。2021年,特斯拉推出基于Transfomer的BEV(Bird's Eye View,鸟瞰视角)算法栈,让视觉感知网络获得了测速、测距能力,能把车辆周围摄像头拍摄的2D画面,拼接成一张完整的俯视地图,让车辆“看到”周围360度的全景,获得BEV感知。
隔年,特斯拉又公开发布Occupancy占用网络,把车辆周围空间划分成无数个小方格,像乐高积木一样标记每个格子是否被物体占据,让汽车仅靠摄像头就可获取周围环境的深度信息,实现高分辨率的三维感知与重建。
对于摄像头“抓瞎”的夜、雨、雾以及逆光眩光等极端场景,目前被采用较多的技术是HDR(High Dynamic Range Imaging,高动态范围成像)和小鹏提到的LOFIC(Low-Frequency Image Correction,低频图像校正)。简单来说,HDR与LOFIC的分工,就像“摄影师+调色师”:HDR选择最佳曝光参数,平衡光线,解决极亮与极暗的矛盾;LOFIC调整对比度、锐度、色彩,优化画质,在HDR的基础上,让画面更清晰。
不过,以特斯拉和小鹏为代表的纯视觉派,似乎忽视了,激光雷达也从未停止过进步。
激光雷达起初最被诟病的是价格太高。李一帆在接受记者采访时表示,为了降本,禾赛在早期就投入了极高的成本,建立自研团队,自研了最关键的器件,将它们压缩成了几颗芯片。Hill告诉记者,目前行业内很多主机厂称禾赛的激光雷达报价已经砍到了人民币三位数。
激光雷达很便宜,小鹏汽车为何还是放弃?何小鹏在接受媒体采访时回应称,“小鹏选择了‘让大脑更强’,但也有友商选择不同道路。条条道路可能都能通罗马,但我们觉得,‘我们是一个最优解’。”
激光雷达的另一个问题是存在“多径效应”。袁婷婷在文章中指出,激光雷达在测量远距离的复杂地形或障碍物时可能发生多次反射,导致回波信号混叠,难以识别甚至误识别真实目标。
Jade在一家激光雷达龙头供应商担任产品经理,其公司在全球车载激光雷达市占率位居前列。他告诉记者,“这已经是两年前的论调”,现在存在很多方法解决。比如,用大量包含多径效应的激光雷达数据训练神经网络模型,学习多径信号的特征,记住多径信号的常见模式,在之后输出时过滤掉。
总的来看,正是这一路上面临的需求与质疑,倒逼纯视觉与激光雷达不断改善自身,形成了这两大派别。
“雪岭飞花”认为,视觉肯定是目前智能驾驶系统感知的绝对主力,激光雷达取代不了视觉。因为摄像头分辨率高,语义信息丰富,激光雷达无论怎么改善也无法识别语义,所以在感知上只是起到补充作用。
激光雷达是否具备不可被视觉替代的核心优势?
“雪岭飞花”认为,激光雷达的核心优势在于测距精度高,可以直接检测目标,暗光、眩光等情况下都可以正常工作。即便软件算法和硬件技术再怎么提升,摄像头的测距效果最多是相对于传统摄像头有提升,不可能彻底解决。例如在完全无光的场景,摄像头探测到的范围一般很难超越车灯照射范围以外,激光雷达可探测的范围明显更远。
Jade补充,在一些具备视觉欺骗性的场景,比如当物体颜色与周围环境融为一体时,摄像头很容易被“骗”。但这并不会影响到激光雷达的判断,激光雷达虽然无法识别物体的颜色与纹理,但能通过点云数据确实知道前方存在物体,从而规避事故的发生。
最后,法雷奥集团中国首席技术官顾剑民表示,摄像头可能只认识数据库中出现过的物体,对于未出现过、未学习过的异形障碍物,未必能识别。
先拼下限,再谈上限
探测范围更远、测距精度更高,和在具备视觉欺骗性、未学习过的异形障碍物等更多的corner case中保持对物体的识别——激光雷达的这三大核心功能,能否被纯视觉替代?
在小鹏看来,他们的纯视觉方案不仅可以,还更好。第一,小鹏的AI鹰眼智能方案能让摄像头不仅在各种条件下看得比激光雷达更远,还更清晰;第二,“大算力可以大幅度提高AI能力的上限,也能够大幅度提升AI能力的下限,特别是跟安全相关的下限”;至于Corner case,如果基座模型足够强大,“大脑”足够聪明,就能被强化学习不断激发出能力上限,找到最可能降低风险的路径。
而“雪岭飞花”的观点,相对来讲温和很多:如果目前视觉技术已经可以解决一切感知问题,那就用纯视觉;如果答案是否定的,肯定要考虑同时使用其他传感器,提升整体安全性。
顾剑民进一步指出,在当前L2的辅助驾驶阶段,上不上激光雷达“无所谓”。因为根据交通法规,在开启L2级的辅助驾驶功能时,驾驶员始终要注视前方、手握方向盘。倘若发生事故,负责任的是驾驶员自己。
但在L3及以上的阶段,就完全不同了。车企可以不上激光雷达,但必须证明纯视觉方案更加安全。纯视觉方案摘掉了激光雷达,但带激光雷达的多传感器融合方案却从未排除摄像头。多种传感器之间并非非此即彼的关系,并存是为了尽可能增加系统的安全冗余。
更重要的是,在L3及以上的自动驾驶阶段,车企“做减法”可以,前提是发生事故需要由车企自身负责,否则与不负责任的“渣男”有何区别?
应该对小鹏和特斯拉保持尊敬。多一个选择,永远比少一个选择更好。他们的纯视觉方案企图“一力破万法”——砸算力、砸数据、不断优化模型本身,这也许是上限更高。但也必须看到,这条路径更烧钱、见效更慢、技术难度更大,同时表现还不稳定,需要迭代。何小鹏表示,小鹏辅助驾驶系统在年底会有次大更新,“我们的纯视觉系统的变化,将会翻天覆地……最迟到2027年,纯视觉与激光雷达之争就会结束。”
“雪岭飞花”觉得,自动驾驶路线本身没有所谓的“胜利”或者“失败”,最终路径的选择都是安全、性能、成本的综合考量,假如有一天不用激光雷达能够证明有足够的安全性,他一定支持。
顾剑民则认为,2027年会结束路线之争缺乏依据,最终还是要看两种自动驾驶系统的实际对比结果。消费者不要只听宣传,要看“疗效”。
不管模型算法如何更迭,传感器是祛除还是出新,对于用户来说,自动驾驶的答案永远只有一个:哪种方案下限更高,更能避免事故的发生,那就是答案。