深度稿丨端到端能带来新春天？深扒分裂的无人驾驶行业-引领外汇网--ylfx.com,专注外汇-贵金属-区块链-财经信息资讯服务

编者按：本文来自微信公众号硅谷101，作者：王梓沁，创业邦经授权转载。

无人驾驶，真的能落地吗？

人类研发无人驾驶，已经消耗了无数的时间与资金。到了今天，事故频发、烧钱无止境、进度缓慢，引发了众多不解与质疑：无人驾驶是否是一场骗局，甚至，行业已死？

这个行业，真的是我见过最分裂的行业之一，各个派系观点各不相同、互相瞧不上、互相指责，神仙打架之后，又各干各的，各踩各的坑，各倒各的闭，各花各的钱。

结果就是，在2024年之前，无人驾驶走入了寒冬。

但这个寒冬，随着马斯克号称“通过端到端AI技术“重构了特斯拉的FSD，并宣布要进军无人驾驶出租车（Robotaxi），似乎又出现了一些新的生机和希望。

端到端能否带领我们走向真正的无人驾驶呢？自动驾驶中定义的L2与L4之间真的相隔甚远吗？如今无人驾驶技术发展到哪一步了？纯视觉与多模态之争，真的没有尽头吗？

为了探究无人驾驶行业到底发展如何，我们历时3个月，采访了全球市场上最前沿的无人驾驶公司，包括Waymo，Cruise的前核心员工、前特斯拉FSD工程师、一二级市场投资人等多达十多位自动驾驶界的专业人士。

我们发现这个行业依然割裂，很多技术路线业内并没有达成共识。

这个系列文章我们将从感知、算法、产品、运营、经济、法律等多个角度，全方位一起来探讨如今的自动驾驶技术的最前沿现状。

本期文章我们先全面聊聊技术，下期会从运营与经济角度解析。

01 自动驾驶是什么？

我们先来做个概念区分：无人驾驶和自动驾驶的区别是什么？

根据智能化程度的不同，自动驾驶被分为L0到L5共6个等级：

L0为无自动化，L1指驾驶援助，L2指部分自动驾驶，L3指有条件自动驾驶，L4指高度自动驾驶，L5指完全自动驾驶，即真正的无人驾驶。

我们之后提到的Waymo和Cruise，以及侯晓迪做的无人卡车都属于L4级别，特斯拉FSD属于L2级别，但马斯克号称的特斯拉Robotaxi，却是L4级别的。

所以目前在这个产业中，人们说无人驾驶，一般指的是L4的公司，因为现在还没人能做到L5；而一般说自动驾驶，则是包括了所有级别，是更泛的一个称呼。

我们再来看看自动驾驶产业是怎么开始的。

尽管早在100年前人类就开始探索无人驾驶，但公认现代自动驾驶正式起源于2004年美国军方的DARPA挑战赛。

经过了几年发展后，形成了感知（Perception）-规划（Planning）-控制（Control）这样的运行链路。其中感知模块包含了感知（Perception）和预测（Prediction）。

感知层需要通过雷达、摄像头等传感器获取前方路况，并预测物体的运动轨迹、实时生成一张周围环境的地图，也就是我们在车机上常见的鸟瞰图，再将这些信息传递给规划层，由系统根据算法来决定速度与方向，最终再下放到执控制层，控制对应的油门、制动和转向机。

后来随着AI的兴起，人们开始让机器自己去学习如何开车，先让算法到仿真的数字世界里开车，等仿真训练到一定程度，就可以开始上路测试。

而最近这两年，随着特斯拉将“端到端”方案应用在FSD V12的版本中，感知-规划-控制的运行链路也开始改变。

接下来我们着重来聊聊自动驾驶产业在感知这一层面的两派技术路线：纯视觉派与多模态融合派，这两个派别在过去很多年一直在打架，各说各的好，我们来讲讲它们的恩怨情仇。

02 感知篇：纯视觉Vs.多模态融合

目前汽车主流的感知方案分为两种。

第一种是不少公司采用的多模态融合感知方案，会将激光雷达、毫米波雷达、超声波传感器、摄像头、惯性测量单元等传感器采集的信息进行汇总融合，来判断周围环境。

回到我们上一章说到的DARPA挑战赛，2004年第一届中，虽然没有任何一辆车完赛，但一位名叫David Hall的参赛者在比赛中意识到了激光雷达的重要性，在比赛结束后，他创办的Velodyne开始从做音响转向做激光雷达。

当时的激光雷达还是单线扫描，只能对一个方向测距，而David Hall发明了64线机械旋转式激光雷达，可以360度扫描环境。

后来他带着这台旋转式的激光雷达，参加2005年第二届的DARPA挑战赛。终于有台头顶着5个激光雷达的车完赛并取得了冠军。

但这并不是David Hall的车……他的车辆中途因机械故障退赛了，不过他的表现确实让大家意识到了，激光雷达、是个“外挂”。

到了2007年第三届DARPA挑战赛中，完赛的6只队伍中，5只都用到了Velodyne的激光雷达。至此，激光雷达开始成为自动驾驶界的香饽饽，Velodyne也成为了车载激光雷达的龙头企业。

张航

Cruise高级主任科学家：

现在不管是Cruise、Waymo，基于L4在做的一些解决方案，都是基于激光雷达为主了，它可以直接拿到位置信息，这样的话对于算法本身的要求，就是相对会比较低一些，然后很多可以直接通过传感器来拿到这些3D的信息，这样对系统的鲁棒性，还有对于安全性，一些长尾问题会比较轻松。

另一个技术派别就是以特斯拉为代表的纯视觉方案了，只靠摄像头采集环境信息，然后利用神经网络，将2D的视频转换成3D的地图，其中就包含了周边环境的障碍物、预测的轨迹、速度等信息。

相比激光雷达方案直接生成3D地图，纯视觉多了一道2D转3D的过程，在张航看来，纯靠“视频”这种缺乏3D信息的训练数据，会给安全性带来一定挑战。

张航

Cruise高级主任科学家：

它需要大量的训练数据去学出缺乏3D的信息，这样的话缺乏监管，因为没有一个参照物，很难去拿到一个现实中的一个ground truth（真值数据），如果完全通过这种半监督的学习方法，想要达到系统的一个安全性，我觉得是比较难的。我觉得特斯拉主要目的还是控制成本，包括修改一些换挡的机制，都是为了节约一些零部件方面成本。

但在特斯拉的前AI工程师于振华看来，选择纯视觉并不只是节约成本那么简单。

Chapter 2.1 多即是乱？

于振华

前特斯拉AI工程师：

其实特斯拉原来的自动驾驶系统是有毫米波雷达，传感器融合其实是一个很复杂的算法，就是它做出来了并不一定好。

我当时有一辆车，是最后一批有毫米波雷达的车。在2023年的时候，我的车进行了一次保养，服务工程师就自动把我的雷达给去除了。这一件事情的结论是什么呢？去掉毫米外雷达不是为了成本，因为我的车已经有毫米波雷达在那放着了。根源的原因是纯视觉已经胜过毫米波雷达了。所以特斯拉是在做减法，把一些他认为不需要的冗余的事情去掉，或者说累赘的事情去掉。

于振华认为，如果融合算法做不好，或者通过纯视觉就已经能达到足够好的效果了，那更多传感器反而成为累赘。

接受我们采访的很多L4从业者也同意，信息并不是越多越好，反之，传感器收集到的太多额外的无效信息会加剧算法的负担。

那么马斯克一直倡导的光靠摄像头这一种传感器，到底行不行呢？

Chapter 2.2 少即是多？

马斯克说，既然人类仅通过两只眼睛就能开车，那么汽车也可以仅凭图像信息来实现自动驾驶，但业内对于纯视觉派的担心一直是，视觉欺骗，在过去这确实带来了不少事故。

比如特斯拉将白色卡车识别为天空、把月亮识别为黄灯，又或者理想将广告牌上内容识别为汽车，导致高速急刹追尾等事故。

这些案例是否意味着，少了深度信息的纯视觉方案，存在先天性不足呢？

于振华

前特斯拉AI工程师：

多个信息流确实能提供更多的信息，但是你要解答一个问题，难道摄像头本身的信息不够吗？还是算法挖掘信息的算法能力不足？

比如说紧急刹车、在城市道路的时候有顿挫感，其实根源就是它对周围物体的速度估计、它的角度估计不足，如果是这个原因，那确实激光雷达要比摄像头好很多，因为它能够给你提供更直接的信息，就是摄像头本身其实也给你信息了，只不过我们的算法不足够好，能够挖掘出这样的信息。

于振华不认为视觉欺骗的根本原因是摄像头的信息不足够，而是算法不足以处理或挖掘摄像头给的信息。他认为，特别是在特斯拉FSD V12算法的推出后，更证明了当算法得到了巨大优化，摄像头信息的挖掘和处理就得到了显著进步。

于振华

前特斯拉AI工程师：

今天的FSD V12它不是完美的，有很多的问题，但是我到目前为止没有发现，哪一个问题是由于传感器不足。当然在V12之前确实很多是由于传感器不足，但是今天V12是没有这个问题。

但是，L4的从业人员就有不同的观点了。他们认为摄像头就是有天然劣势的。

张航

Cruise 高级主任科学家：

我个人觉得是有难度的，我觉得不一定是算法本身的问题。

首先这个摄像头本身它不像人眼这么复杂，每个摄像头它有一些参数，它有它的局限性。

然后就是算法本身的话，人不需要知道200米范围内所有的车的动向都在哪里，我只需要知道哪几辆车、哪几个行人可能影响到我的车的行为，我只关注在这几个点上就够了，我也不需要很大的算力，可能短期不能够通过算法来达到这个高度，我觉得激光雷达才作为是一个方式的补充吧。

从事L4研究的张航认为摄像头无法与人眼媲美，主要原因在于摄像头的焦距和像素是固定的，而人眼的精度非常高而且可以自动变焦。同时人类跳跃式的思考模式，短期内无法应用在计算机上，所以使用激光雷达才能补充摄像头的缺陷。

但市面上也有其它的看法，认为除了视觉信息，其他传感器也会带来干扰信息。

比如说，激光雷达也存在自己的缺陷，由于是通过激光测距，在面对一些反射物体、雨雪天气，或者其他车发射的激光时，会对激光雷达带来干扰，最终造成幻觉效应。

刘冰雁

Kargo软件负责人：

我是非常坚定的纯视觉派，这个世界的道路都是给人和视觉设计的，也就是说除了视觉之外，你采集的信息你可以认为都是干扰，当然你可以采集，但是那些信息提供的干扰，和它提供的真正价值，到底是什么样的分布？我觉得在视觉越做越好的情况下，可能反而是完全相反的。

如果能做好多传感器融合算法，让激光雷达与图像信息互相验证，或许会让系统的安全性进一步提升。

侯晓迪提出了一个形象的比喻：两个同等水平的学霸在考试时，最终一定是使用计算器的学霸更轻松，只是经济基础决定了买不买得起计算器而已。

选择纯视觉还是以激光雷达为主的多模态融合方案，这个辩论已经持续了数年，并且似乎短期内不会有答案。或者对一些创业公司来说，什么路线根本也没那么重要，而成本和经济账才是最重要的。

侯晓迪

前图森未来创始人兼CEO，Bot.auto创始人：

我曾经被认为是视觉派的，是因为当时买不到激光雷达，所以逼着我们不得不去在视觉上多去找解决方案。

我也不反对激光雷达，激光雷达什么时候便宜了，我第一个去排队。现在激光雷达确实便宜了，所以我也在排队买激光雷达，对我来讲就是，抓住耗子的都是好猫。只要这个设备的成本足够低，只要这个设备能从信息论意义上，给我们提供足够有价值的信息，我们就该去用它。

大卫

《大小马聊科技》主播：

中国的自动驾驶圈很快地就把这些硬件，比如说激光雷达、毫米波雷达，做成了白菜价。在这种状态下是不是还要像特斯拉那样做纯视觉？其实很多公司现在就在犹豫了，那我是1000多块钱买一个固态激光雷达，还是我用纯视觉，但是对算力上会造成很大的浪费。

于振华

前特斯拉AI工程师：

我觉得‍1000块钱太贵了，特斯拉连雨量传感器都不舍得用。

王辰晟

前特斯拉采购总监：

但是我觉得随着供应链的规模的上升，成本的大幅下降，在激光雷达能做到和摄像头相似的价格的时候，特别是在端到端的这样一个应用场景下，是不是纯视觉还是一个唯一的路径？

Chapter 2.3 幡然悔悟？

有意思的是，随着激光雷达价格大幅下降，业内开始对特斯拉即将发布的无人驾驶出租车，是否会用上激光雷达产生了分歧。

比如张航就认为，由于Robotaxi没有人类干预，而且出了事需要企业负责，特斯拉可能会选择更保守的路线，会用上曾经瞧不起的激光雷达。

张航

Cruise 高级主任科学家：

特别是它需要去为企业事故负责的时候，它需要更加的保守，我觉得它可能需要一个额外的传感器。从这个角度看的话，Tesla可能会采取一些，它之前鄙视的技术，只要这个东西有用，能达到它L4的目的，它会逐渐去采用的。

最近我们也发现特斯拉在做这个L4、L5的一些方面也在考虑，他也在跟这个激光雷达的一些厂商也在聊一些合作，所以说可能就是大家殊途同归。

今年激光雷达制造商Luminar发布了第一季度的财报，显示特斯拉的订单达到了10%，成为了其最大客户。而于振华却不以为然，认为这并不是什么新鲜事。

于振华

前特斯拉AI工程师：

首先它肯定不是为了以后量产车上使用激光雷达，因为Luminar第一季度总收入好像是2000万美元，10%就是200万，也不够装几个激光雷达。其实特斯拉的工程车、测试车上装激光雷达，也不是什么秘密了，那个激光雷达就是用来采集训练神经网络的ground truth（真值数据），因为人工无法标注那个物体距离你有几米，必须要用专门的传感器来标注。

但是Lumina为什么在第一季度披露这件事，我其实也非常疑惑，因为马斯克也当时就回应了，说我们在V12了之后，我们不需要真值数据了，因为端到端了，占用网络是V11时代的事情，我可能是觉得这里面有一些误解，就是从财报上或者财务规则上。

虽然目前不确定特斯拉即将推出的Robotaxi是否会搭载激光雷达，但有一点可以确定的是，以目前特斯拉的感知配置，安全性还不足以达到L4、或者能运营Robotaxi的程度。

刘冰雁

Kargo软件负责人：

我非常确定现有的特斯拉的这几个车型，都有非常明确的盲区，就是视觉不可达的盲区，而这个盲区就造成，如果他想实现最终的，不管是L4、L5的自动驾驶，他的下一款车一定需要解决这个盲区问题。

特斯拉最新的端到端技术更新，以及10月将公布的Robotaxi细节猜测，我们会在第三和第四章节再详细拆解。接下来我们先探讨感知上的另外一个重要的技术：高精地图。

Chapter 2.4 历久弥新？

除了激光雷达外，高精地图也是自动驾驶感知端中的成本大头。

高精地图就是提前采集道路信息，降低感知模块绘制3D地图的压力，并提高准确性。

说来也巧，最早推行高精地图的人，正是2005年第二届DARPA挑战赛的冠军——那个头顶了5台激光雷达的车主，Sebastian Thrun。

在2004年DARPA挑战赛时，谷歌正在筹备“街景”项目，谷歌创始人Larry Page亲自到了比赛现场去物色人才，在2005年比赛结束后，Page找上了Sebastian Thrun，邀请他加入谷歌，并将绘制地图的工作交给了他。

在这个过程中，Thrun和Page突然意识到，如果有一种能精确记录所有车道线、路标、信号灯等道路信息的地图，那将对无人驾驶带来巨大的帮助，这也奠定了高精地图在无人驾驶项目中的重要地位。

但是，制作高精地图非常昂贵，自动驾驶公司采集高精地图的平均成本大约为每公里5000美元，如果要覆盖全美660万公里的道路，光是采集成本都达到了33亿美元。

再加上地图频繁的维护成本，最终消耗将是无法想象的天文数字。

现在已经有不少车企，纷纷宣传舍弃高精地图的无图方案，转而由车辆在本地构建环境地图。

我们匿名采访的一位自动驾驶工程师对此表示，这些对比宣传更多的是出于商业模式的考量，对于做Robotaxi生意的企业，用上高精地图能增加安全性，而对于车企来说，舍弃高精地图能有效降低成本，所以并不意味着舍弃高精地图技术水平就会更高。

匿名受访者

L4工程师：

华为还有理想，他们的解决方案是量产车，你的客户可能是来自各种城市，你要在任何城市都能开。

那现在主流的这个高精地图，它的这个主要的门槛在于，它需要有一个地图采集的过程，这个地图采集的过程实际上是相对来说比较花时间、人力成本的，然后他也需要专业的这个地图采集设备。

所以如果是做这个量产车的生意的话，你不可能说我专门有一个地图采集车，我把全中国都给你跑遍了，这个是不现实的。

像特斯拉、华为、理想等L2的公司抛弃高精地图，是因为无法覆盖每一条大街小巷。

而Waymo、Cruise这样做Robotaxi的L4公司选择继续使用高精地图，因为他们发现，只需要覆盖一些关键的城市，就能拿下足够的市场了。

所以，是否使用高精地图成为了Robotaxi公司的经济账问题，而不是技术问题。

Minfa Wang

前Waymo高级机器学习工程师：

如果你单看Robotaxi的商业模式，把美国Robotaxi的需求来划分，你会发现前五大的城市，它已经占有了全美一半的商业体量，你不需要让它在全美任何一个地方都能跑，其实你就已经有一个相当大的一个市场了

类似的，我们采访的另一位做L4自动驾驶卡车的嘉宾也分享到，他们如果要扩大运营线路，也就是扩充高精地图的覆盖范围，得先衡量这条线路是否赚钱，否则只是赔本赚吆喝。

这么一圈聊下来，在感知端上，业内也没有统一的看法，就像侯晓迪说的一样，抓到耗子就是好猫。

接下来，我们重点聊聊大家最近非常关注的自动驾驶算法层面的最近进展，特别是特斯拉近来大肆宣扬的“端到端”，到底是什么技术呢？它真会改变自动驾驶的行业方向吗？

03 算法篇：端到端是自动驾驶的未来吗？

Chapter 3.1 何为传统？

传统的自动驾驶的运行链路是先感知、预测，再规划，最后控制。

感知模块要先通过摄像头、雷达等传感器，识别道路，把这些信息翻译成机器能看到的语言，传递给预测模块。

预测模型就会判断其他车辆、行人的行驶轨迹，再把这些信息传递给规划模块，去找出风险最低的一条路，最后再将控制信号传递给操控系统。

这时的算法主要靠“规则库”（Rule base）来驱动，工程师需要不断写入各种规则，比如遇到行人得减速、遇到红灯要停车等等，为了考虑到各种情况，规则库就得尽可能覆盖到各种可能，相应的，代码也非常非常长了。

这样的算法有哪些难点呢？

最大的问题就在于，系统被划分成了不同的模块，但模块之间的信息传输会有所损失，如果下游无法拿到全面的信息，预测和规划的难度就会增加。

举个浅显易懂的例子，大家都听过多人传话游戏吧？10个人，从头到尾传递一句话，但经常这段话经过多人传递的过程，细节就会被丢失或篡改，以至于到达最后一个人那里的时候意思就大相径庭了。

类似的，在传统的Rule-based模式下，如果上一层模块做得不够好，会影响到下一层的表现。

另一个缺点是，规则都是由人工设计定义的，但有限的规则无法覆盖无限可能的现实情况，一些不常见且被容易被忽略的问题，机器难以拿出对应的解决方法，这被称为“长尾问题”（long tail case），也叫“极端情况”（corner case），这就会导致规模化落地的成本非常高。

于振华

前特斯拉AI工程师：

还有一个就是，在分两个模块的时候，我认为这个技术是很难规模化的，为什么呢？你每次要在一个现实的复杂场景中新加一个任务，那么你就要新加一些接口，你就要去改变感知、改变控制规划。

比如说特斯拉，前几年NHTSA（美国交通安全管理局）要求特斯拉能够检测到紧急车辆，比如说消防车、救护车之类的，在感知上你就要求要检测这个，然后控制规划也要做这个，这只是一个任务，可能会成百上千这样的任务，你要去规模化，所以说在华为你们知道有几千个工程师？大概是6000个工程师，因为你会有这么多不断涌现的新的任务出现，环境越复杂任务越多，我认为这不是一个可规模化的模式。

大卫

《大小马聊科技》主播：

那这种方法还是比较老套，虽然说看起来，如果做Robotaxi行业是比较灵的一个方法论，但是它不能满足乘用车、几百上千万台车将来在全世界的路面上行驶。

那有什么办法能解决这些问题呢？这时候就得聊聊“ 端到端 ”（End To End）了。

Chapter 3.2 新超级明星

在自动驾驶领域内，目前主流的“端到端”定义是：传感器收集到的信息，不加任何处理传递给基于神经网络的大模型，并直接输出控制结果。

也就是说，不再需要人为编写各种规则，让算法跟着投喂的数据，自己学会如何开车。

于振华

前特斯拉AI工程师：

因为我们人类开车，我们脑子里并不是去判断某辆车的速度和角度的，你就是通过一个复杂环境来下意识地来做出你的决策。

“让算法更像人，因为人就是这样运转的”这样的思考逻辑，正是马斯克带领特斯拉的前进方针，也不奇怪，为什么“端到端”技术在自动驾驶里并不新，但是却被特斯拉第一个做出来。

虽然2023年底，特斯拉才第一次将用上了“端到端”的FSD V12推出，但在自动驾驶界，“端到端”并不是什么新鲜事。其实早在2016年，英伟达就有论文提出了“端到端”。

而现在，“端到端”也分为两种，一种是把部分模块替换成神经网络，这种分模块的“端到端”，只是一种过度形式，并不是完全体，因为各个模块之间要传递信息，依然要定义各种接口，造成数据损失。

在主流观点中，只有将多个模块融为了一个整体，去掉了感知层、预测层、规划层这样的定义，才算纯正的“端到端”。

2023年，CVPR的最佳论文《Planning-oriented Autonomous Driving》就提出，过去的“端到端”要么只运行在部分模块上，要么需要在系统中插入一些组件。

而这篇论文提出了UniAD的模型架构，是首次将所有的感知、预测、规划模块，都整合到了一个基于Transformer的端到端网络框架下。

相比传统Rule-based（规则驱动）的执行链路，“端到端”不再需要算法工程师去反复完善规则库，所以才有了马斯克发布FSD V12时，宣称得“其代码从30万行缩减到了2000行”。

虽然自动驾驶中的“端到端”技术不是特斯拉发明的，但特斯拉确实是第一家公司把神经网络“端到端”技术做出来并推向主流市场的。

Chapter 3.3 “端到端”优势

2023年11月，特斯发布了FSD V12第一个测试版本，但仅向选定的员工开放。到了2024年初，特斯拉开始将FSD V12版本开放给美国所有特斯拉车主，每位车主都有1个月的免费试用权限。

FSD V12推出后，一时间掀起了轩然大波，从用户体验上，我们看到大部分的舆论都认为比之前的特斯拉FSD功能进步非常大，甚至很多人都认为，这是自动驾驶界的“ChatGPT Moment”。

大卫

《大小马聊科技》主播：

真正让我觉得进步的就是规划，比如说过环岛，因为这个过环岛其实是在传统的 planning方向上面是挺难做的，因为你前面的车要加塞，你还要出环岛，这中间如何设置这种优先级？

你即使设置优先级，那你跟前车和旁边的车保持多少的距离才能出去，这是一个其实挺复杂的逻辑，但是这个在新版的FSD上表现确实让我觉得很惊艳，这是给我一个很大的惊喜。

不少体验过FSD V12的人表示，这个通过人类驾驶数据来学习的系统，驾驶风格非常像人，不再有机械式算法带来的顿挫感。

但与此同时，也有嘉宾在体验后认为，FSD V12还没有好到让人非用不可，与L4之间还存在一定差距。

莫傑麟（Justin）

某家族办公室首席投资官：

但是它没有好到GPT4的那个时刻，就没有好到说这个东西让我必须得用，或者说我立马就要用，能够适合在我的很多的场景里面去用。

Minfa Wang

前Waymo高级机器学习工程师：

高速路相对它的表现还是比较好的，但在街道上我觉得基本上每开5英里左右，我觉得就需要人工接管一次。

尤其是在那种我们叫unprotected left turn（无保护左转），它还是比较容易做一些，让我觉得不是很安全的行为，如果你MPI（接管里程数）只有5的话，那么显然离L4的自动驾驶还有一定的距离。

我自己也体验了一下FSD 12.4.4的版本，和Waymo这类L4的车辆比起来，目前的特斯拉FSD依然在某些时候会吓我一跳，或者有时候表现出莫名其妙的行为。

比如在一个右转弯时，由于它的转弯半径太大，差点撞到对向来车，我不得不手动接管。

从表现上来看，“端到端”的FSD V12依然还有进步的空间，而从工程、运营和管理角度来看，“端到端”的优势有三点：

第一，能让系统整体更简洁。去掉规则库后，只需要不断补充训练案例，即可进一步提升模型表现，维护和升级成本也将大幅降低。

第二，节省人力成本。由于“端到端”不再依赖繁杂的规则库，因此不必配备庞大的开发团队，甚至不再依赖专家。

第三，能实现更大范围的推广。大家可以看到目前L4的公司只能在限定地区运行，抛开法规牌照的限制，是因为非“端到端”方案，需要针对具体地区做优化，而“端到端”各路况都能应对，更像一个“通用”的司机，这也是为什么特斯拉FSD V12被比作ChatGPT的原因之一。

既然“端到端”有如此多的优势，它能解决目前自动驾驶面临的技术问题吗？

Chapter 3.4 黑盒模型

我们采访的不少嘉宾认为，在现阶段下，进一步发展端到端的路线是自动领域内公认的趋势，但依然存在不少问题。

张航

Cruise 高级主任科学家：

这个方向我觉得是一个正确的方向，我们不可能通过一直在以打补丁的方式，来做出一个规模化的L4方案，只不过是目前我觉得要快速地达到一个L4的方案，也不可能完全通过端到端的方案，所以现在是一个矛盾的一个时间点。

为什么目前的端到端距离L4还有一定差距，这就要从它的不确定性说起了。

端到端就像一个黑盒子，这就会带来较多的不确定性。

比如工程师无法验证，输入的数据案例是否已经被模型学会；或者遇到bug时，无法定位到底是哪个环节出了问题；又或者新加入的数据，是否会导致已学到的知识被遗忘或覆盖，这种情况被称为Catastrophic Forgetting（灾难性遗忘）。

比如特斯拉FSD 12.4.2的版本，内部早就做出来了，结果大规模推送却花了很长时间，马斯克就解释到，因为投喂的数据中有很多人工接管的视频，反而让模型的水平出现了倒退。

由于端到端的本质是模仿，如果遇到的情况恰好在训练数据中有相识的案例，那就会表现的非常好，但如果超出了已有的参考案例，则会表现更差，也就是说，端到端对训练数据的数量和案例丰富性要求非常高。

张航

Cruise高级主任科学家：

就是在交通路口红灯的时候，一定不闯红灯，就这么一个简单的规则，如果是heuristic-based（启发式的算法），我们可以很简单的就是一条 if else，就可以达到这样一个效果。

但是如果是一个完全端到端的模型，它是完全全靠学习的，最后他要学的这样一条路的话其实是非常难的。所以就是我觉得短时间内端到端对L4，还是有很大的差距，我觉得这个算法是不成熟。

刘冰雁

Kargo软件负责人：

你没有一些硬性规则，就是所有的、你设置的这种不能做的事情，他都可以尝试去做一下。于是就会就是在模拟里边，也出现了很多一头撞过去的现象。

同时，端到端带来的不可解释性，也是一些人担心的问题。

所谓的不可解释性，就是改变其算法模型中的任意一个权重、结点或层数，都会让模型的表现产生难以预测的影响，即使是模型的设计者和训练者，也无法知道中间的推理过程。

与之相对的，是可解释性，比如在Rule-based的模式下，工程师已经写入了“当检测到塑料袋飘过时可以继续行驶”的规则，那我们就不用担心遇到这种情况会突然来个急刹车。

刘冰雁

Kargo软件负责人：

大家看到V12里，他在屏幕上的显示也好了很多，但他所谓的端到端，这个显示从哪儿来的？如果这个显示来自于，原来的这个模型，那牵扯的一个问题就是，我们实际上在这个模型里边已经加了一层，人为定义的接口，使得你从可以从这个模型中的某一个位置，提取出这个信息。

另一种我觉得是更恐怖的事情，就是这个显示是完全走了另外的一个路径，那也意味着车上显示前面有一辆卡车，不代表控制的模型真的认为前面有一辆卡车，如果这一点被破坏了，那将是非常非常恐怖的，你看到显示它前面有一辆车，但你不确定它不会撞上去。

他是否是真正的端到端，我实际有点怀疑，或者说我也许不是怀疑，但是这里边可能有别的危险性。

王辰晟

前特斯拉采购总监：

那对于像自动驾驶这个，对于安全系数要求这么高的行业来说，端到端模型带来的这个不可解释性，是不是硬币的另外一面？

由于目前特斯拉还未公布FSD V12的技术，我们并不知道FSD是否采用了多模块的策略，但我们发现，已经有车主遇到了画面显示与实际行为不符的案例。

比如车辆构建的鸟瞰图显示前方有人，却没有表现出任何刹车的痕迹，而是继续行驶过去，所幸只是感知端的误检，没有发生事故。

这个案例虽然可以看出在端到端算法下，上层错误不会影响下层决策的优势，但也表现了规划层偶尔会不认可感知层的结果，印证了刘冰雁的担忧。

不可解释性是否会成为阻碍端到端发展的一大难题呢？接下来就是我们看到的第三个冲突。

于振华

前特斯拉AI工程师：

我认为是这样的，AI一个很严重的问题，就是它的理论性是远远滞后的。

AI没有告诉你这个一定行、一定不行。所以说它是一个实验性的学科，它不算科学，就需要一个大量的验证。

V12是全面碾压V11，所以这是结果说话的一个问题。那难道你还去会想，端到端有这个不可解释性那一顿什么什么，因为它全面碾压，那就是一个非常无脑的，你就应该往下走。

于振华认为，AI作为实验性的学科，只要结果达到了预期，就能证明方向正确，应该继续推进。而侯晓迪表示，V12表现大幅领先于V11，只是因为V11的基础太差，其表现距离真正的无人驾驶还比较远。

王辰晟

前特斯拉采购总监：

如果真的是Full Self Driving，以L5来去限制的话，它一定要过监管部门，他们需要有一个可解释性或者可预测性。

再加上对于，世界上有这么多的城市，就在美国来说，它每个城市，它可能都会有不一样的法律法规。这个车无论从硬件软件上，需不需要去去适应当地的法律法规，变成了这个能不能规模化的一个很大的问题。

端到端不能通过人为定义规则，来对模型进行微调，所以能否适应不同法规，成了端到端规模化的挑战。

同样影响规模化的因素，在于端到端对数据量和传感器更敏感。

Chapter 3.5 前途未卜

刘冰雁

Kargo软件负责人：

端到端有一个非常严酷的问题，就是它对传感器会更敏感，也就是说当你换了传感器或者换了传感器的分布的时候，你这个模型可以说得完全重头训。

从另一个角度来说，工程上不可接受，或者说我们无法想象之后全世界路上跑的都是同一款车。

一旦更改了传感器分布，会让模型失效，得重新开始训练，为了训练又得采集大量数据，必然会带来巨大的成本。

美国财经媒体CNBC报道称，到2023年初，为了训练特斯拉FSD，就用到了1000多万段特斯拉车主的驾驶视频。

而且这1000多万段训练数据可不是随便用的，必须是驾驶水平比较高的人类司机，否则只会让模型的水平越来越差。

所以训练端到端模型不光要求数据多，还得经过复杂的筛选，这个过程中又得消耗大量人力。对于卖车多的特斯拉可能不在话下，但对于其他公司来说，数据来源却成了大问题。

大卫

《大小马聊科技》主播：

很多主机厂因为盲目的追求特斯拉那套方法论，然后导致有点被忽悠瘸了，就是这套东西确实不适合90%的主机厂。

那是否意味着，其他厂商真的无法进入端到端的领域呢？

虽然英伟达和特斯拉都是通过纯视觉来驱动端到端算法运行，但端到端实际上也可以接受多模态输入。

目前常用的毫米波雷达、激光雷达、超声波雷达等传感器，在车辆上的位置相对固定，特别是激光雷达，基本都在车顶上，所以采用多模态接入的端到端，就能利用不同车型采集的数据，来训练模型，而且留给主机厂的设计空间也会更大。

又这么一圈聊下来，每种算法都各有千秋，哪种方式能带我们彻底走向全无人驾驶的未来依然不明朗。

张航

Cruise高级主任科学家：

我不觉得在当下有任何一个算法能，又简单又规模化，然后又能达到L4标准，我觉得这个算法本身是不存在的，这个领域是一个大家一起去推动的。我是非常乐观，大家会殊途同归，虽然大家会稍稍有一点点不同的偏差。

Chapter 3.6 无计可施

不论是哪种算法，最终都要面对的是长尾问题。

在传统Rule-based（规则驱动）模型下，编写规则库（rule base）需要庞大的团队耗费大量精力，还很难做到面面俱到，那有了端到端后，长尾问题能得到解决吗？

Minfa Wang

前Waymo高级机器学习工程师：

他解决了常规的的案例，但是长尾的问题我觉得依旧会存在。

Minfa认为，自动驾驶系统的容错率很低，如果要将一个黑盒系统用在L4上，必须引入其他安全机制，但这样又回到了Rule-based模式下的成本问题。

自动驾驶算法会先到仿真系统里练习，那仿真训练可以解决一定的长尾问题吗？

张航

Cruise高级主任科学家：

目前还没有一个很好的方案能通过，生成的模拟数据，能够对我们的现实中的道路表现有真正有很大的帮助。

Minfa Wang

前Waymo高级机器学习工程师：

像自动驾驶或者机器人的领域里边，环境是非常非常复杂的，你要仿真的话，仿真的不只是你自己，这个车会未来怎么动，主要困难的是，当你自己的车的轨迹发生变化的时候，你会影响周围的所有的车和人的行为也发生变化。

如何能够很好的仿真，然后并且能够不出现 distribution shift（分布偏移），我觉得依旧是一个开放性话题。

既然虚拟的场景无法完全模拟出现实的种种可能，那是否意味着，目前业内没有办法解决长尾问题，只能靠漫长地积累经验呢？

匿名受访者

L4工程师：

某种程度上是吧，但你也不用做到，就是特别完美，对吧？人类也不完美，你只要做得比人好就行。人也有他的事故率，你只要做比这个好就够了。

侯晓迪

前图森未来创始人兼CEO，Bot.auto创始人：

我觉得长尾问题其实也是一个伪命题，就这个很高兴你们提出来这个事情。

在我看来长尾问题，比如说我见到鳄鱼怎么处理？我见着大象怎么处理？我见着一个固定翼飞机停在高速公路上，我怎么处理？

实际上对于很多长尾问题，我们是让它包裹成一大类问题的，见到我没见过的物体，怎么处理？如果你把它包裹成了一个更总体的的一类问题的话，它是很好处理的。

比如说我们曾经就见到有固定翼飞机停在高速公路上，那我们的处理方案很简单，停车呀对吧？

长尾问题到底是不是伪命题，或者它是不是需要解决的问题？这个话题可能大家都有自己的答案。而长尾问题对应的是，L4甚至L5何时才能大范围铺开，所以接下来，我们就来看看L2与L4的激烈冲突。

04 特斯拉Robotaxi能成吗：L2与L4的冲突

Chapter 4.1 “成不了”

我们在马斯克宣布推迟发布Robotaxi之前就询问了各位嘉宾的看法，大家对此的看法非常统一，那就是今年特斯拉的无人出租车是不可能上线的。

大家观点如此统一的最大原因，就在于目前特斯拉已有的车型，达不到L4标准的无人出租车。

刘冰雁

Kargo软件负责人：

我非常确定现有的特斯拉的这几个车型，都有非常明确的盲区，如果他想实现最终的，不管是L4、 L5的自动驾驶，他的下一款车，一定需要解决这个盲区问题。而解决这盲区问题又回到我们现刚才说的，它一定要调整相机传感器的位置，而传调整这些位置立刻带来的结果就是，就是之前这个模型会完全失效。

就是现有的车从视觉摄像头架构的角度来说，是不可能达到，可以完全无人接管的FSD的。从这个角度来说，它必须有一款新的硬件出现。

张航

Cruise高级主任科学家：

从传感器角度，它需要引入一些冗余，这个可能之前L2是不需要的。

在业内人士不看好的情况下，是什么原因让马斯克对推出Robotaxi如此有信心呢？

于振华

前特斯拉AI工程师：

我认为主要还是这个FSD V12的几个技术突破，作为马斯克他的这个性格，他看到FSD V12今天这一刻，在他的这个计划里面，他就觉得Robotaxi应该必须摆上日程了。

所以，FSD V12能让特斯拉走向L4，承担起Robotaxi的重任吗？和目前已有的Waymo或Cruise比起来差距有多大呢？

在采访侯晓迪这个问题时，他的回答让我们看到了行业内的另外一派观点：那就是L2和L4的差距非常远。

Chapter 4.2 “差很远”

侯晓迪

前图森未来创始人兼CEO，Bot.auto创始人：

首先特斯拉做的不是无人驾驶，我们今天谈的是去掉人、并且由软件开发公司承担责任的方案，才叫无人驾驶，咱们不要虚假宣传， FSD叫辅助驾驶，它不是无人驾驶，所以做的不是一个东西。

目前被广泛应用在车企上的都是L2辅助驾驶，比如特斯拉、小米、华为、小鹏等等，而像Waymo、Cruise、百度等做无人出租车的企业，则采用的是L4高度自动驾驶，抛开书面的概念定义，这两者之间的本质区别就在于，谁来承担责任。

侯晓迪

前图森未来创始人兼CEO，Bot.auto创始人：

去掉人并且由软件开发公司承担责任的方案才叫无人驾驶。讲一笑话，如果特斯拉撞死人了怎么办？对Elon Musk来讲，its not their business（这不关他的事）。

所以，如果特斯拉想做无人出租车，就必须做到自己承担责任。那辅助驾驶和自动驾驶之间，从技术上又有哪些区别呢？

侯晓迪

前图森未来创始人兼CEO，Bot.auto创始人：

L4无人驾驶要解决的核心问题是什么？是安全性，是冗余，是当一个系统的每一个模块都有可能会失效的时候，这个系统还仍然能够保障最底线的安全。这件事是L4最难和最关键的部分。在挣钱之前它要先解决安全性的问题，但是这件事情根本不是特斯拉的设计宗旨。

另外一位L4自动驾驶研究员也分别从硬件与软件的角度，分析了L2和L4之间的区别。

张航

Cruise高级主任科学家：

L4 的解决方案，首先是我们有比较强的传感器，这个可能很难在L2场景里面去用，起码不会用这么高精度的激光雷达。

从算法角度可能L2公司更注重的是一些，更有效能把成本降得很低，然后不需要特别昂贵的传感器，然后可能更少的计算就可以达到这样一个效果。这些L2其实不需要考虑这种百万分之一的案例。

那我们L4追求的是，一百万英里以上才需要引入一次的人类远程协助，就是达到追求的是这种百万分之一的案例。

总结一下：L4的方案，采用的传感器精度更高，芯片的算力会更充足，能应对的场景也更全面。

但L2的方案中，首要考虑的是成本问题，所以硬件水平会稍低一些，同时算法为了适应水平稍低的硬件，会更注重效率而非安全，这样L2的接管频率会比L4高很多。

那么，像特斯拉这样做L2的公司，能否通过提升硬件与软件，来达到L4的效果呢？

Chapter 4.3 “两码事”

侯晓迪

前图森未来创始人兼CEO，Bot.auto创始人：

我不支持L2缓慢进化到L4、L5的路线，我觉得这件事情又是一个带有很强这种外推属性的伪命题。

假以时日，海豚能不能进化出文明来？我觉得有可能，但是我们要知道地球文明已经容不下海豚去进化了，因为已经有公司做出来了，我这个公司就是为了能够最快速的把L4落地。我落了地以后就没你什么事儿了，对吧？智人拿起标枪的时候就没有海豚去产生文明什么事儿了。

在侯晓迪看来，目前已有的L4公司已经筑起了技术壁垒，激烈竞争下，不会给到L2进化的机会，同时，也有人认为，这并不意味着L4的技术比L2更高级，只是大家针对的场景不同。

于振华

前特斯拉AI工程师：

如果说，真的L4比L2像大家所想象的，在技术上是绝对的高级、绝对的领先。那么我想请问为什么L4技术不能够直接降级成了L2？

事实上是在过去的很多年里面，L4公司被由于他这个收入的压力，他都在帮车厂去做L2，但是他不能够简单的降级，他基本上都要重新开发。

那我们也知道在美国，GM（通用汽车）是拥有Cruise L4公司，福特是拥有Argo AI，也是个L4公司，为什么GM不能使用Cruise的技术在它的量产车上？为什么福特不能使用Argo AI的L4技术在它量产车上？所以说L4并不是比L2绝对高级，在技术难度上，我不认为你做L4了，你就显得非常高级。

为什么L4的技术不能直接降级成L2使用呢？张航对此解释道，由于L4所采用的硬件规格更高，而L2的算法必须适应规格更低的传感器和算力较少的处理器，才导致两者的技术无法直接迁移。

就像一位建筑设计师，被没收了电脑，只给他精度不高的尺子和纸笔，他也得重新适应新的画图方式。

张航

Cruise高级主任科学家：

就是你前面说的就是这个计算量的问题，L2的解决方案，不可能去支持，我们在一个车的后备箱里面放一个超级计算机，这是一个不现实的一个解决方案。

同时，张航对L2与L4的技术比较，也表现出了更开放的心态，L2铺设的范围更广，需要面对的场景更多，只需要解决基本问题即可。而L4的覆盖范围有限，但更关注各种细节。所以两者之间各有优劣。

张航

Cruise高级主任科学家：

L4本身不能通过简单的去把已有的系统做简化，去掉冗余，去作为一个L2的解决方案，但反之亦然。L2做想做到L4的标准，这是一个很长的时间去磨练，你需要很长时间的数据收集，然后去积累经验。

但我觉得并不是说，我们的技术路线，或者技术深度会比L2高，我觉得这个不一定，L4可能很多并不是说很尖端的一些算法，但是就是通过一些，很细心的去设计去解决这些很细节的一些长尾问题。

你会支持哪个观点呢？可以留言告诉我们。在我们的采访中，这个问题在不同的人眼里，都会有自己的答案。

于振华

前特斯拉L2工程师：

我觉得就是在普通的大众，甚至一些L4公司会给大家灌输一个概念，就是L4技术优于L3，然后优于L2。我觉得这个是一个脱开它的限制场景，来误导大众，因为L4 的现在的Robotaxi，它是有很大限制场景的，必须在特定的这个地区，比如Waymo，它只能在一个地区一个地区的运行。