一个色导航对话欲望智驾团队：什么是自动驾驶的「终极谜底」？

栏目分类

热点资讯

三对夫妻玩6p生活照

你的位置：小说专区 > 三对夫妻玩6p生活照 > 一个色导航对话欲望智驾团队：什么是自动驾驶的「终极谜底」？

发布日期：2024-08-09 02:51 点击次数：64

一个色导航对话欲望智驾团队：什么是自动驾驶的「终极谜底」？

2013 年的时候，自动驾驶如故一个相配前沿和性感的成见，一如当下的 AGI，前几年的元寰宇，在互联网公司生机勃勃的时期，腾讯每年都会举办一场 WE 大会，来聊一聊那一些星辰大海的话题一个色导航，比如基因剪辑、脑机接口、寰宇探索等等。

我第一次商业「自动驾驶」的成见，等于在 2013 年第一届腾讯 WE 大会上，那时有嘉宾抛出了如下不雅点：

时间问题不艰深决，难以解决的是法律问题。在十年之内，破钞者是可以买到无东谈主驾驶汽车的。要是机器它作念的判断正确率达到 95%，那可能如故要比东谈主好、比东谈主快。

十年之期已到，这些话算是大致应验，当萝卜快跑依然在多个城市大范围出发，主流新势力品牌的高端车型具备高阶智能驾驶能力，以及特斯拉 FSD V12 版块的推送，还有特斯拉 RoboTaxi 行将发布，自动驾驶时间正从 L2+ 级别往 L4 级别迈进，「车坐不开」变得并不远方。

等一下，当我拿出这张图，大驾该怎样应答？

这是广州城区日常交通现象的一个普通场景：纯真车谈不仅跑着海量乱窜的两轮电瓶车，致使龟速的电动轮椅也跑在纯真车谈上。

此时，智能驾驶的上风和挑战就一皆体现：上风是智能驾驶莫得情绪，不会不满不会路怒；挑战是龟速电动轮椅和乱窜侵入纯真车谈的两轮电瓶车对于智能驾驶来说，是很不好预测和处理的场景。

履行上，十年前预测自动驾驶发展大多基于一个逻辑：路上的车和东谈主都遵命交规，红灯停绿灯行，纯真车谈不会出现害东谈主精。

但当厂商们委用带智能驾驶功能的汽车到破钞者手上时，汽车面临的情况等于上头这张图：马路是我家，交规去 TM。

经典智驾逻辑：「感知 — 蓄意 — 箝制」

当下主流的智能驾驶决策，不论是高精舆图决策，如故无图决策，都依赖于大宗工程师证据各式万般的谈路场景去编写轨则，以期达成穷举通盘谈路现象和对应行为，达成尽可能的智能驾驶行为。

不外现实谈路情况不仅散乱有致，不可能被穷举，同期现实寰宇也在束缚变化，随时有新的谈路场景出现。因而，此前智能驾驶研发是一场「无穷干戈」。

比如说，环岛出入这个场景，在 7 月份之前，还莫得几家车企能够攻克，因为场景复杂，感知受限，蓄意决策难受。

简便来讲，在特斯拉 FSD V12 版块取舍「端到端」时间决策之前，简直通盘的智驾决策都可以归结为「感知 Perception — 蓄意 Planning — 箝制 Control」三个大模块，这一套进程隐痛各式万般的场景，比如经典的三分法：高速场景，城区场景和停车场景。

这几个大场景又可以细分细分再细分，智驾工程师们针对场景来编写轨则代码，汽车的激光雷达、毫米波雷达和录像头还有定位系协调起协调，感知和记载谈路、环境和位置信息，然后 BEV（Birds-Eyes-View）时间或者 OCC（Occupancy Network）时间或者其他的时间来把这些传感器获取的信息酿成能被智驾系统领会的「竟然寰宇的编造投影」，智驾系统再证据这种「寰宇投影」蓄意出合理的行进道路和通顺蓄意，进而得出箝制决策，临了汽车反应决策，就酿成了「减慢，左侧变向，提前走左侧掉头车谈，进犯刹车藏匿路中间乱入的两轮电瓶车，持续前进，调头」这种智能驾驶行为。

▲ 极越汽车 OCC 占用收集暗示图

要是智能驾驶使用到了 OCC 占用收集时间，那么咱们就可以打个比方，在智驾系统里，外部寰宇就像《我的寰宇》那样，是由一个个方块（体素）构成的，要是谈路前线一派坦途，那表面出发上就莫得方块，车就可以斗胆往前走，要是前线有一个静止的小方块，那可能是雪糕桶跑到路中间了，要是右侧有渐渐出动的长条，可能等于行东谈主，要是是左边车谈快速出动的超大长方形块，那可能是大货车……

在这个「感知 — 蓄意（决策）— 箝制」的大逻辑下，不管是此前的基于高精舆图的决策，如故后续更依赖于多种传感器交融和高腹地算力的无图 NOA（自动导航扶助驾驶）决策，都莫得脱离这个基本逻辑，研发的框架和工程师的使命，也都是在各个模块里各司其职。

直到，「端到端」的出现。

什么是「端到端」？

印象中有三次东谈主工智能的标记性事件，引起了庸俗的社会商讨。

第一次是 1997 年 IBM 的海外象棋机器东谈主「深蓝」征服了海外象棋行家卡斯帕罗夫，但站在如今的时刻点看「深蓝」，就会认为它并非那么智能，它只不外是存储了巨量的开局和残局棋谱，然后搭配高效的搜索算法和评估体系，选出最符合的下法。

也等于说，深蓝鄙人棋的时候，中间的决策对于东谈主类来说是可讲解的，逻辑明晰的。

接着等于在比海外象棋更复杂的围棋领域，DeepMind 的 AlphaGo 赢了李世石和柯洁，晓谕东谈主工智能的水平远超通盘东谈主类棋手。

AlphaGo 的逻辑不是搜索匹配棋谱，毕竟围棋的棋盘格子数和棋子数目远超海外象棋，蕴含的可能性太高，当今的计较机没法算出其中通盘的可能性。但基于神经收集的深度学习，AlphaGo 一来可以自我学习自我进化，二来可以阐述下一步何如下更接近告捷，对于东谈主类来说，AlphaGo 的下法和东谈主类念念考逻辑彻底不同，但中间发生了什么，东谈主工智能大家是阐述其逻辑的。

接着等于 ChatGPT 的出现，大讲话模子时间在输入和输出之间，存在着东谈主工智能大家都难以讲解的「黑盒子」，东谈主类无法准确讲解问问题和 ChatGPT 恢复之间，具体发生了什么。

以此作念个譬如，智能驾驶时间此前基于「感知 — 蓄意（决策）— 箝制」的研发逻辑，类似于 AlphaGo ，AlphaGo 的卷积神经收集（CNNs）能够处理棋盘的二维结构，提真金不怕火空间特征；而价值收集和策略收集能够提供蓄意和决策，此外还有强化学习和蒙特卡洛树搜索时间能优化决策。

▲ 欲望智驾端到端架构图

而智能驾驶时间里的「端到端」，就类似于 ChatGPT 背后的大讲话模子时间，从原始传感器数据（如录像头、毫米波雷达、激光雷达等）到最终的箝制指示（如加快、刹车、转向等）的全进程处理。天然，现阶段这种告成控车的风物如故太激进，是以像是欲望的端到端就只输出轨迹，没到箝制，到车辆箝制之前如故有好多管制和冗余行为。这种方法的方针是简化系统架构，通过一个单一的神经收集或模子完成通盘任务，背后不再依赖海量的场景轨则代码，是彻底不同的时间标的。

正如大讲话模子之前强调的是参数目的大同样，端到端背后的多模态模子也存在这样一个量变产生质变的过程，特斯拉在 FSD V12 上圈套先使用了端到端时间，马斯克就这样说：

用 100 万个视频切片训导，凑合够用；200 万个，稍好一些；300 万个，就会感到 Wow（惊奇）；1000 万个，那就难以置信了。

但平方使用 ChatGPT 或者其他生成式 AI 器用的东谈主就会发现，这些器用并不可靠，平方信誓旦旦地输出非常谜底，谓之「幻觉」。

电脑上的 AI 器用瞎恢复问题一般没啥灾祸性后果，但智能驾驶事关生命安全，一个「端到端」解决驾驶行为，还需要更多的考证和保障行为，这是个时间问题，更是个工程问题。

对话欲望智驾团队：「端到端」才是着实用 AI 作念自动驾驶

资格了前边长篇累牍的配景先容之后，终于可以切入正题：借着采访欲望智驾团队的契机，来聊一聊「端到端」怎样从表面，到上车？

欲望智驾研发副总裁郎咸一又告诉爱范儿和董车会：

咱们本年春季计谋会上有一个紧要反念念，等于咱们太过于追求竞争，比方说老是盯着华为什么的，成人性爱网它开些许城，它的谋略是些许，其实单纯的盯谋略，比如说我比华为好少许，或比华为差少许，并不行代表用户着实的需求。

转头到用户的开车需求上来看，着实的用户需求不是摄取率谋略低到些许，用户需要的是智驾像老司机那样去开车，而这种拟东谈主化的需求依靠蓝本轨则化的模块化的研发架构很难达成。但欲望里面预研的「端到端」会作念得更好。

基于此，在一年之间一个色导航，欲望的智驾时间决策资格了三代治疗：从有图到 NPN（神经先验收集）到无图，再到端到端。

郎咸一又这样讲解端到端履行上的不同：

端到端它名义上看是一个大模子替代几个小的模子，其实它是一个分水岭，从端到端启动，才是着实地用东谈主工智能的风物来作念自动驾驶，前边其实还不是。

因为它是数据驱动的，由算力配合上数据，配合上模子，是高度自动化的自我迭代过程，这个过程迭代的是模子或系统我方的能力。那么之前咱们作念了什么呢？咱们作念的都是系统各式万般的功能，高下匝谈的功能或过收费站的功能。

功能和能力，是有很大诀别的。

但履行上，欲望智能驾驶夏日发布会上发布的下一代自动驾驶系统是「端到端+ VLM（视觉讲话模子）」双系统决策。

既然前提是要把智驾作念得像老司机驾驶，尽可能拟东谈主化，那就得洽商东谈主究竟是何如作念事儿的，这里的表面依据是诺贝尔奖获取者丹尼尔·卡尼曼在《念念考，快与慢》中的快慢系统表面：

东谈主的快系统依靠直观和本能，在 95% 的场景下保握高成果；东谈主的慢系统依靠有鉴定的分析和念念考，先容 5% 场景的高上限。

欲望「端到端+ VLM」双系统里的端到端等于快系统，有日常驾驶场景里快速处理信息的能力，而 VLM 视觉讲话模子有面临复杂场景的逻辑念念考能力。

这个快系统的究竟有多快呢？

欲望智驾时间研发负责东谈主贾鹏说：

当今咱们端到端蔓延越过于是传感器进来到箝制输出 100 多毫秒，不到 200 毫秒，往常分模块大约得到 300 多快要 400 毫秒。

这个慢系统为什么又是必要的呢？

郎咸一又讲解说：

咱们当今正在探索它（VLM）的一些能力，它至少在刚才说的主路、辅路车谈取舍这块有一些价值，要是莫得它，也不会出安全问题。咱们在 L3 级别智能驾驶起主要的撑握作用如故端到端，代表这个东谈主正常的行为下的驾驶能力。

但到了 L4 级别智能驾驶一定是 VLM 或者大模子在这里面起到更紧要的作用，可能 90% 以上的时刻它不起作用，但它起作用这些内容，是决定这个系统到底是 L3 级别如故 L4 级别的一个环节点，VLM 是能着实的能去应答这种未知的场景。

欲望并不是一个端到端模子就完事儿，而是取舍了更适应的双系统决策来隐痛全场景，端到端负责让驾驶行为更拟东谈主，更像老司机，而 VLM 视觉讲话模子托住下限，更能拔高上限，有望达到更高档别的自动驾驶。

再深究一下，和原教旨主义的端到端临了还要负责汽车箝制不同，欲望的端到端其实也莫得告成能控车，而是到了输出轨迹这一层级。

贾鹏说：

咱们的端到端模子是到了轨迹，轨迹之后加一些安全兜底，因为在模子莫得达到上限之前，如故要有一些处理的东西，比如说猛打标的盘这样的事，给他兜掉。

而在履行的智能驾驶过程中，两个系统亦然同期使命的，贾鹏具体讲解了两个系统怎样共同协调：

这俩系协调直都在及时运行，一块跑是端到端，因为模子小一些，它的频率比拟高，比如跑个十几赫兹。另外阿谁模子范围参数目就大的多，是 22 亿参数，刻下能跑到大约 3~4 赫兹之间，其实亦然一直在跑。

VLM 发决策末端给参考点，比如说在 ETC 进高速的时候，其实车很难判断要走哪个谈，我要走东谈主工如故走 ETC？这个时候 VLM 也一直都在，要是想去选 ETC 可以走 ETC 这条谈，要是想走东谈主工可以走东谈主工这条谈，只不外它是把决策末端和参考的轨迹扔给端到端模子，26HE端到端模子推理后，再取舍这个信息。

其实 VLM 视觉讲话模子是个扶助信息，最终的轨迹末端是模子推理的末端，它是有一定概率被接纳的。

为什么端到端能够在智能驾驶领域掀翻如斯大的波浪？如故因为它背后庞大的可能性，以及在找「终极谜底」上的指向性真谛真谛。

简言之，在这套决策上，大家都还远远莫得摸到能力的天花板，时间探索和工程践诺，干预到了郊外区。

贾鹏进一步讲解双系统的旨趣，以及可能性：

其实东谈主等于双系统，诚然物理结构上并不是那么明确的双系统，关联词东谈主的念念维风物等于双系统，是以咱们那时有一个想法是在端到端的基础上再加一个着实有泛化能力，有逻辑念念考能力的一套系统，自关联词然就料想了 VLM。

诚然 VLM 不告成控车，关联词会提供决策。

再朝后这套东西何如发展？可能跟着算力的增多，比如特斯拉 FSD 12.3 到 12.5 版块，参数普及了 5 倍，可以撑握豪阔大的模子。

我认为以后两个趋势，第一是模子范围变大，系协谐和系统二当今如故端到端加 VLM 两个模子，这两个模子有可能合一，刻下是比拟松耦合，畴昔可以作念比拟紧耦合的。

第二方面也可以鉴戒当今多模态模子的大模子发展趋势，它们就朝这种原生多模态走，既能作念讲话也能作念语音，也能作念视觉，也能作念激光雷达，我认为这是畴昔要念念考的事情。

咱们这套范式应该能够撑握咱们作念到（L4 级自动驾驶），因为在机器东谈主具身智能上咱们依然看到它的愚弄雏形，参考东谈主的念念维过程，这套东西可能等于咱们心目中想追求的终极谜底。

终极谜底的真谛是咱们用这套表面和这套框架去作念着实的东谈主工智能。

不外在聊终极谜底之前，贾鹏讲解了为什么只消端到端能够解决「环岛出入」的智驾难题：

要是是分段式的（智驾决策），前边是个感知，要给规控去作念各式假定，作念个掉头，还得把掉头线拟合出来，不同的路口的掉头还不太同样，曲率都不太同样，是以你很难作念到一套代码就可以把通盘环岛掉头解决，种类太多了。

对于环岛这件事，也有一个好玩的故事，在咱们（模子数据包含）大约 80 万 clips（视频片断）的时候，还过不了环岛，自后倏得发现一天咱们（喂了）100 万 clips 它我方能过环岛，我认为是 100 万（视频片断）里头刚好有一些环岛数据放在里面了。

模子照实很狠恶，你喂了什么数据他就能学会，这是模子的魔力所在，就像 ETC，我认为要是你开咱们当今端到端的版块，会发现其实 ETC 它我方能过，关联词问题是它当今不知谈我要走哪条谈，到底是走 ETC 谈如故走东谈主工谈，他我方会粗率乱选一个，会让你认为不太安全，咱们背面想作念的等于 VLM 可以给他这个指引，因为 VLM 是可以领会语笔墨，领会 LED 教唆灯的。

对于端到端表面部分的 What 和 Why，至此也有了大约的综合，有了数据和模子之后，等于着实地上车了，也等于 How，这才是着实的大考身手。

▲ 欲望汽车制造车间

「训导端到端模子，跟真金不怕火丹没什么诀别」

郎咸一又给爱范儿和董车会讲了一个训导端到端模子里很离奇的小故事：

本年比拟早期的时候，刚启行动念神气，咱们发现模子训导出来，平时开着还都 ok，但等红灯的时候，车的行为就比拟潦草，它老是想变到傍边的车谈，咱们不知谈为什么。

自后显豁咱们在训导端到端模子的时候，删除了好多在红灯之前恭候的数据，咱们认为等了几十秒或者一分钟，这样数据没灵验。但自后发现这份数据相配紧要，它教学了这个模子，有的时候是需要恭候的，不是一朝你慢下来就要插空，就要变谈。

这个小故事阐扬了，数据很猛进度上决定了模子的质料，但模子的大小是有一定限度的，是以喂哪些数据去训导模子，履行上等于最中枢的使命之一。

郎咸一又打了个譬如：

训导端到端模子，跟古代真金不怕火丹没什么诀别。古代真金不怕火炸药防范一硝二磺三柴炭，作念出来的炸药威力比拟大。其他配比，可能也能点个火起来。

不外对于想要训导端到端模子的车厂来说，「真金不怕火丹」仅仅形象地譬如，而非具体的工程落地方法，数据何如来，何如选，何如训导，都是科知识题。

好在欲望有一些先天上风，比如车卖得可以，销量在新势力车企里平场合居第一，路面上有 80 多万辆欲望汽车在跑，每个月还能新增四五万辆，这些车提供了十几亿公里的数据。

另外，欲望很早就鉴定到数据的紧要真谛真谛，打造了对于数据的器用链等基础能力，比如欲望的后台数据库达成了一段话查找那时，写一句「雨天红灯罢手线近邻打伞途经的行东谈主」，就能找到相应的数据，这背后是一些云表的小模子，比如数据挖掘模子和场景领会模子。

郎咸一又致使认为，这些数据库的器用链和基础诞生能力，某种真谛真谛上（紧要性）致使大于模子的能力，因为莫得这些细密的基建和数据，再好的模子也训导不出来。

底层时间决策转向，也意味着使命风物转向，当发现一个 badcase 之后，欲望里面的「分诊台」系统里的模子会自动分析这属于哪一类的场景问题，给出「分诊建议」，然后转头到模子训导上来解决问题。

这里也波及到使命风物的治疗，蓝本解决具体问题的东谈主，当今变成了瞎想解决问题器用的东谈主。

为了普及「诊疗」成果，欲望里面会同期训导多个模子，这个过程又回到了「真金不怕火丹」的成见，贾鹏讲解说：

模子训导主要两个方面，一是数据的配方，类似的场景到底要加些许，能把 case 解决掉，这是一个 know-how，不同的场景对数据的条件不同样。第二点是模子的超参，加入新的数据后，模子参数怎样治疗，一般情况下有 5-6 版模子会同期提交训导，然后看哪一版解决了问题，同期得分也高。

同期训导多个模子，对数据库的基础诞生建议了条件，也对算力有庞大约求，这个时候就该「钞能力」上场。这里欲望的上风依旧是车卖得多且贵，有这新势力车企里最佳的营收和正向现款流，能够撑握背后庞大的算力开销。

郎咸一又说：

咱们预测，要是作念到 L3 和 L4 自动驾驶，一年的训导算力花销得到 10 亿好意思金，畴昔咱们拼的等于算力和数据，背后拼的是钱，如故盈利能力。

当端到端模子替代了传统智驾逻辑「感知 — 蓄意 — 箝制」里的大部单干作时，欲望关系智驾团队的最花力气的使命也纠合在了「一头一尾」，头是数据，尾是考证。

除了端到端模子和 VLM 视觉讲话模子这两个快慢系统除外，欲望里面还有一个系统三，称之为测验模子或者寰宇模子，履行上这是个考试系统，来侦探通盘智驾系统的水温文安全性。

郎咸一又把这个考试系统譬如成三个题库的聚会：

真题库：东谈主在路上驾驶的正确行为错题库：正常的测试和开车过程中，用户的摄取，用户的退出等行为模拟题：证据通盘的数据，举一反三，针对特定类似问题，生成编造类似场景测试

比如前边提到，想要智驾开车拟东谈主化，像老司机，那么这个真题库的驾驶行为，就得是老司机的驾驶行为，欲望测验模子里的「真题库」收用了里面评分 90 分以上的司机驾驶行为，这个群体只占欲望汽车司机里 3% 的比例，会看他们驾驶的平顺性，驾驶的危境进度等等，比如司机平方开出 AEB 自动进犯刹车，那他的驾驶行为就太激进了。

经过了测验模子的大宗测试之后，还会有一个「早鸟用户」的测试版块，这等于有上千辆用户车获取新的智驾系统版块，以无感知的「影子模式」在竟然场景停火路里去作念竟然的考证和测试，这比任何车厂的测试车队范围都大。

这些千东谈主早鸟用户测测考证的数据，又会自动回传，自动分析，自动迭代训导，进行新一轮的测试和委用。

也等于说，数据获取，模子训导，测验考试和用户委用是一个充满了自动化轮回逻辑的过程，东谈主的参与度其实相配少。

按照郎咸一又和贾鹏说法，上到「端到端+VLM」之后，行业到了一个接近无东谈主区的地方，这里既有暂时看不到这套系统能力上限的欢喜感，天然也有必须条件实的部分，比如刻下只让端到端模子输出轨迹，轨迹之后的箝制还需要安全兜底，再比如对于算力的念念考：之前需要堆工程师数目，往后得堆显卡的数目。

莫得算力，都是逸想。

莫得利润，算力亦然逸想。

再聊一下「终极谜底」：欲望，特斯拉和 OpenAI 的同归殊途

正如马斯克一再强调「特斯拉是一家 AI 和机器东谈主公司，而不仅是一家汽车公司」同样，在采访中，郎咸一又和贾鹏也把欲望汽车譬如成装在轮子上的机器东谈主，也聊到了东谈主形机器东谈主等具身智能载体在用「端到端+VLM」的框架的愚弄雏形。

特斯拉的 Optimus 机器东谈主承载了马斯克更大的愿景，天然亦然 FSD 的另一种载体，因为 Optimus 机器东谈主开释出的信息还相对较少，但它照实领有「端到端」模子，依靠本机的录像头和传感器输入环境信息，然后告成输出要道箝制序列。

另外，OpenAI 和英伟达投资的 Figure 机器东谈主刚刚发布了旗下的第二款东谈主形机器东谈主 Figure 02，并宣称这是「寰宇上来源进的 AI 硬件」，其中 VLM 视觉讲话模子是其紧要能力。Figure 02 的头部、前躯干和后躯干各配备六个 RGB 录像头，能够通过其 AI 驱动的视觉系统来感知和领会物理寰宇。在官方的描画中，Figure 02「具有超东谈主的视觉」。

十方兄弟与学生开房

天然，它天然也有 OpenAI 提供的大讲话模子来和东谈主类相通。

颇为类似的是，Optimus 机器东谈主在特斯拉的车厂里启动打工（亦然训导），而 Figure 02 也在良马的车厂里进行测试和训导，都能够完成一些简便的使命，何况都在束缚进化。

诚然欲望汽车，特斯拉 Optimus 机器东谈主以及 Figure 机器东谈主看起来关系性不大，但一朝深究起来，底层的时间逻辑，以及对于 AI 的念念考，照实同归殊途，这亦然「终极谜底」的由来。

咱们谈了几十年的东谈主工智能一个色导航，要点终于从东谈主工，转念到了智能。

　　声明：新浪网独家稿件，未经授权不容转载。 -->

上一篇：SAKURA最新番号记取！一定要告诉你的女儿，找媳妇这13类弗成找

下一篇：一个色导航 HKX香港假造金钱往来平台派司恳求已于7月17日被撤离