首页科技快讯国产智驾甩开激光雷达，一次冒进的尝试

国产智驾甩开激光雷达，一次冒进的尝试

来源：晰数塔互联网快讯时间：2023年11月30日 15:58

今年1-10月，激光雷达的上车量超过35万台。签单量也在不断提升，仅头部企业禾赛近期就密集官宣了哪吒，零跑，长城的定点协议。

尽管激光雷达的签单率和销量都在快速攀升，但萦绕耳畔的问题依然存在。像当初高精地图企业一样，今天激光雷达企业也面临一样的不确定性。

市场的双面性显而易见。激光雷达出货量激增的同时，纯视觉路线也在齐头并进。极越和大疆都已经拿出来了基于视觉方案的高阶智驾产品。前不久小鹏在1024上称在研究“轻雷达”技术路线，希望进一步提高视觉的比重。只是这个“轻雷达”到底怎么个“轻”法没有量化的方案出炉。

激光雷达行业的未来每隔一段时间就会被拿来讨论，这次旧事重提的导火线来自标榜未来的极越01在量产车型中干掉了激光雷达，而前者最初的激光雷达方案供应商正是禾赛。

激光雷达前景有待进一步验证有两个关键支撑：现有销量中，禾赛、速腾、图达通销量占比超过85%，再向深处延展与蔚小理的销量直接对应。对应的目前国内搭载激光雷达的车型超过30款，市场呈现明显的集中效应。

此外，根据多数技术人员的反馈，目前激光雷达在智驾中的作用远没有发挥出来，主流的技术架构依然基于视觉来开发，激光雷达提供辅助信息。后者还没有足够量化的数据来自证价值。简单点说，花了这么多钱却没干那么多活。

干掉激光雷达有据可依，但对国内车企来说，目前真的是去激光雷达的最好时机吗？或者说真的有实力去掉激光雷达吗？

在开始本文的讨论之前，我们需要先理清两个概念：

第一、关于两种技术路线的讨论，国内大部分车企将没有激光雷达的方案统称为纯视觉，但大部分还是会上毫米波和超声光波雷达，而特斯拉的纯视觉只有摄像头，没有任何雷达的方案。这里我们权且按照国内车企的说法，将没有激光雷达的技术方案按照纯视觉来讨论。

第二，国内将具备LCC及以上功能的系统称高阶智驾，再后面还有高速NOA和城市NOA，本文讨论的是具备点到点城市NOA能力的高阶智驾方案。

激光雷达方案确实贵

降成本是车企们干掉激光雷达最直接的理由。一颗激光雷达4000-5000RMB，即便很多车企通过战略协议批量采购，价格压缩一半已经是极限（这还是在激光雷达企业亏损的情况下），相较摄像头和超声波雷达依然很高，这个帐一目了然。

激光雷达自证论据中，被提及最多的是纯视觉的隐性成本更高，原因在于庞大的数据处理。

纯视觉是基于语义理解做判断，要“认识”才能做出反馈，它需要训练，训练的一个大前提是海量数据，而纯视觉一切问题的根源就来源于此。海量数据就是一个成本黑洞，极大拉高了纯视觉路线的门槛。

特斯拉是一个经常被拿来佐证的案例。目前的数据统计，特斯拉每年有超过百万的车型销量，Autopilot的使用里程超过90亿英里，FSD beta累计行驶里程超过5亿英里。

特斯拉从一开始就通过影子模式建立数据收集和回传机制，国内没有任何一家车企的数据能达到这个量级。

这里还可以继续延展出有效数据的概念，车企在不同的场景下需要预设触发机制，以收集Corner case的数据，如果大量数据都是单一场景下的重复数据其实并没有太大的意义。比如从家到公司，这样重复的数据即便是是100万亿公里都没有太大的意义。不同车企的触发机制也不一样，有的车企触发机制超过100个。

海量数据就牵扯到存储、处理一系列问题。

特斯拉自建的数据智算中心里使用了1.4万个英伟达H100训练芯片，单颗芯片官方售价 3.5 万元，大概20 万人民币。算下来一共28亿，再加上建立数据中心所需要的其他的硬件投入建设成本，还有后期高昂的维护和运营成本。有统计的数据显示，特斯拉这几年累计在智驾上的投入是200 亿。

特斯拉主销车型Model 3和Y价格都在30万左右，按照大疆智驾成本占整车3-5%的逻辑，特斯拉单车智驾成本0.9-1.5万之间。对应销量应该是130-220万之间才能平摊这个成本。

至于车企是不是一定要自建智算中心，采取租赁的方式是不是更好，这是另一个维度的话题，后期我们会对此专门分析。但可以肯定的是，租的价格也不便宜，而且如果要在自动驾驶领域保持更高效的竞争力，一定要有自己的智算中心，头部车企已经用行动投票了，特斯拉，小鹏，理想，吉利都建立了自己的智算中心。

除了云端的训练芯片，大数据也对车端的推理芯片提出了更高的要求，大数据需要大模型支撑，大模型需要大算力。这就牵扯到要不要自研芯片的问题，如果自研，这又是另外的成本。

一切的根源在于纯视觉对数据的需求量太大。那么，问题的重点就来到了激光雷达融合方案就不需要大量的数据处理，以此来系统性节约成本吗？

大部分技术人员给出的答案是否定的，激光雷达融合方案同样需要海量数据来“喂养”系统，那就需要牵扯到后续数据的存储，处理，标注等一系列工作。

换言之，拿纯视觉隐形成本高于激光雷达自证太牵强。来看看华为的案例，华为从一开始就采取的是激光雷达融合方案，但其自2019年-2022年在智能汽车业务单元上累计投入已经超过200亿元。而且华为和特斯拉的思路最接近，完全采用软硬件全自研的思路。

更低的成本反映在产品价格的竞争力上，让车企们在干掉激光雷达的路上蠢蠢欲动。极越率先迈出了第一步，但在不少技术人员看来，这是一次冒进的尝试。

Occupancy给纯视觉带来了福音，但挑战巨大

纯视觉存在很多问题，老生常谈的就是易受光照影响，精度低，通用障碍物识别能力差等，其中通用障碍物识别能力差是最棘手的一个，这也直接导致了它对海量数据的过分依赖。国内车企干掉激光雷达是因为纯视觉路线有了新的进展。

2020年特斯拉提出了BEV+Transformer，让纯视觉拥趸者看到了曙光，但真正让纯视觉信徒们兴奋的还是2022年Occupancy的出现，这个在2D技术上成熟的方案被特斯拉用引入到自动驾驶系统中。它的核心就是解决摄像头通用障碍物检测能力差的问题。

占用网络的逻辑其实很简单，就是搭建一套神经网络算法，对图像进行切割，把所有的信息网格化，然后判断格子里是否有物体，并不需要知道物体是什么，从而做出判断，好像是干了激光雷达的活。看起来车企们直接干掉激光雷达刻不容缓，但难点有两个：

一、搭建这样一套神经网络算法很难，涉及到多帧融合与时序融合的问题，系统的高精度和低延时对车端算力和算法提出了更高的要求。

这里我们先来看看占用网络的“工作顺序”，大致可以分为4步：

1、提取2D特征；

2、将2D特征转换为3D；

3、时序对齐，多帧融合构建4D网络；

4、解码生成3D结构和目标物速度。

每一步的技术拆解过程如下：

第一步是基于摄像头的数据利用骨干网络进行特征提取；

第二步是用Transformer把这些主干网络提取的特征，通过BEV框架转换成鸟瞰视角，再进行 3D 特征的提取，对它进行网格划分，获得所谓第一层Occupancy机制；

第三步是将获得的3D状态下的占用网络按照时间顺序对齐，因为视角从2D转换成了3D，所有的信息都要按照时间顺序更新对齐，这个逻辑不难理解；

第四部就是与定位传感器结合，解码生成3D结构和目标物速度。

其实逻辑很简单，先提取2D特征，再转化成3D视角，然后再时序对齐，最后定位。但算法需要转换的步骤太多，干的活多就需要足够的时间。

这其中的一个难点在于，要保证系统有足够低的延时率。比如在一些复杂的大型8车道十字路口，又或者是面对突然地加塞，鬼探头等中国交通状态中非常普遍的场景，系统可能忙不过来，因为要干的“活”太多，而时间又非常紧凑，很难在电光火石之间给出正确的反馈。

这其中还要牵扯到算法和芯片平台的耦合度问题，因为目前都是通用型芯片，只有特斯拉、华为但少数自研芯片的企业是根据自己的算法定制化芯片，大部分算法公司都是基于第三方芯片做算法开发。大家拥有的底层基础不一样，在芯片上运行的效率就不一样。

有点抽象，举个例子，美团创始人王兴有一个习惯，喜欢同时开很多个网页提升信息获取效率。有一段时间我也尝试这样的方式去获取信息，但是发现效果并不好，能够消化的并不多，反而没有单个页面获取信息的效率高。原因很简单，因为我们的知识储备不一样，同样一个信息他能够通过系统1快速给出反馈，但是我需要系统2介入去提供更长时间的思考才能想明白是怎么回事。

相较而言，激光雷达的原理就简单粗暴，光打出去再回来，形成的就是点云图像，中间没有那么多复杂的转化。过程简单，效率自然也就高。

第二个难点在于，即便是经过了层层转化，Occupancy算法的底层架构是基于视觉来完成的，所以它依然绕不开大量数据的“喂养”去训练和迭代。

而且从算法训练的角度看，纯视觉的算法更难训，激光雷达的信息更简单，没有光线，纹理等，融合算法相对纯视觉更容易训练。

即便Occupancy给纯视觉带来了福音，但挑战同样存在。

纯视觉路线是一次冒进的尝试

目前实现高阶城市NOA功能的技术路线只有3种，单/双目融合激光雷达和纯视觉。融合方案其实是对激光雷达的信息进行不同程度的“提取”，然后再根据时序输入到视觉架构的不同板块里，对应车企所谓的前中后融合。

激光雷达在智驾系统中的作用主要有两个，一是对视觉信息补充，二是标定。

激光雷达的精度比视觉高，对信息补充起到很大的帮助。在一些特定的场景下，精度优势会被放大。比如路面上有一个凸起的井盖，可能凸起高度只有3-5厘米左右，市面上波长905nm的激光雷达0-200米之间的精度在±5cm左右，图达通1550nm的精度更高。

有些功能可以通过牺牲体验来保证安全，找到一个折中方案，但有些功能没有折中方案，要么不做，要做就必须做到足够好。比如前段时间圈内热议的AEB功能，敏感度设置的太高容易出现误刹车，太低则容易漏检，太高太低都有危险，唯一的一个办法就是提高信息的丰富度，从而提高安全性能，那就需要加入激光雷达来提高信息的准确度和丰富度。

第二个作用是标定，确定车辆的位置和姿态。细心的朋友会发现，车企的激光雷达安装位置一旦确定很少改变，比如阿维塔，小鹏，理想，所有激光雷达车型的安装位置都是固定的，这和最开始的标定有关，车企一但确定了各种传感器的安装位置，会量出传感器在车上各个方向的位置来设定算法，进而确定自车在行驶过程中的位置和姿态。

激光雷达还可以配合SLAM（即时定位与地图构建），每一束激光反射回来的都是一个点的三维坐标信息，尤其是车企正在大规模推进无图化，需要传感器实时感知周围环境，激光雷达在这方面还有更大的发挥空间。

大疆在无人机视觉领域有极深的积累，但它在开发城市NOA功能时也不排斥激光雷达。官方的说法是把主动权交给客户，如果客户有需求，大疆完全可以给出激光雷达的融合方案。

激光雷达目前存在的逻辑是以成本换时间，国产智驾公司要甩开激光雷达，一个可以预见的办法是，一方面先通过激光雷达融合路线把量跑起来，收集大量的数据，一方面内测纯视觉方案，然后用海量数据再去喂养纯视觉方案，实现技术的无缝切换。