我们会是最后一代会开车的人吗?何小鹏与吴新宙谈自动驾驶的未来时刻

《沙丘》系列小说发端于上个世纪60年代,时至今日,《沙丘》系列已经有26本小说问世,其中仅原作者弗兰克·赫伯特所著的前六本小说就售出了超过2000万本(后20本为其子布莱恩·赫伯特与凯文·J·安德森合作撰写)。

文/腾讯科技作者 袁小丽

编辑 郑可君

北京时间9月19日,2024云栖大会在杭州召开,钛媒体联合创始人刘湘明、小鹏汽车董事长兼CEO何小鹏以及NVIDIA全球副总裁、汽车事业部负责人吴新宙在会上围绕“生成式AI重塑自动驾驶”主题展开了一场圆桌对话。

他们探讨了大模型技术如何重塑自动驾驶的未来,共同分享了他们对这一变革性技术的看法。

针对大模型的出现会对汽车行业带来哪些影响,何小鹏指出,端到端大模型不仅能够提升自动驾驶系统性的性能上限,还能显著提高其在各种复杂场景下的可靠性。吴新宙认为,端到端大模型的出现标志着自动驾驶开发正逐渐从规则驱动转向数据驱动,有效 现在算法的三个限制,这将极大地提高自动驾驶的上限。

在有关特斯拉的全自动驾驶(FSD)技术即将进入中国市场的讨论中,何小鹏和吴新宙都表现出了谨慎的乐观态度。

我们会是最后一代会开车的人吗?何小鹏与吴新宙谈自动驾驶的未来时刻

吴新宙认为,尽管FSD在美国取得了显著进展,但在中国可能会面临不同的挑战。

何小鹏则对FSD入华表示期待,他认为FSD是在用了端到端大模型之后才有了巨大的变化,国内也需要用不一样的好技术去冲击市场。

最后,关于大模型技术未来的发展路径,吴新宙认为,不敢说现在基于生成式AI的方式是最后的方式,但是是自动驾驶领域的一个巨大突破,随着自动驾驶技术的不断成熟,会带来更多可能性。何小鹏认为大模型技术将对L4自动驾驶技术构成降维打击,因为它在成本、规模和性能上具有优势。

以下为对话全文:

 刘湘明:直入主题,要谈大模型在自动驾驶里面的落地,刚才阶跃星辰姜总也谈到了,端到端自动驾驶是整个大模型在物理世界里面 次大规模落地,给两位 个问题就是大模型的出现对汽车行业会带来什么样的影响?包括从用户或者是消费者他们最直观的感受是什么样的?

何小鹏:我觉得刚刚在下面听到 场的分享,我跟新宙在下面讨论,我们做硬件跟软件的,跟纯做软件的,对大模型的看法还是不一样的。比如说我们做自动驾驶,有多少人知道自动驾驶是大概1925年开始研发的,1999年丰田开始做,2009年谷歌开始做,2014年 开始做,2017年小鹏开始做,到今天自动驾驶还没有规模落地。如果说把大模型从我的角度分类,可能我分类不太一样,一个是数字世界的大模型,另外一个是物理世界的大模型。比如说自动驾驶,比如说机器人,还有一个新的仿真世界的大模型,刚才讲的强化学习,这三个不同的模型将来肯定会融会贯通,NVIDIA也在做,但是融会贯通从硬件世界来看一定是挺慢的。从数字世界可能会变化很快,但是从物理世界的变化一定会比大家想像得慢。所以换个角度从软件、硬件、政策法规的变革放在一起才是一个物理世界的变化。

回过头来,对于自动驾驶在过去不到两年,一年多的时间我们看到一个巨大的机会,过去那么多年我们在做自动驾驶,做得高速上可以开,城市里面可以开,但是它是用规则写的。一个人无法用规则面对世界上所有的场景,即使仅仅是开车。

端到端的大模型帮助我们可以将未来自动驾驶的高度做得更高,且把下限也可以提高,对于最普通的用户,从现在到未来36个月可以让每个人在每个城市都像老司机一样开车,这是端到端到模型对于用户的强感知。

吴新宙:首先 认同小鹏的观点,我跟小鹏一起工作了很多年,在很多观点上是同多于不同。我可能说得稍微技术一点,其实端到端大模型对于自动驾驶应用来说是有两个阶段的。这两个阶段都对自动驾驶的上限会有一个比较大的提高。 阶段就是端到端,在现有的架构上把上游的模型和下游的模型通过一种方式连接起来,用数据端到端进行训练。这个业界已经有很多工作在做了。有了这样的能力以后,其实你可以更多把自动驾驶的开发变成数据驱动。第二个是大模型,端到端大模型。刚才包括吴泳铭也做了一些分享,把一些通用的大模型真正的放到自动驾驶,可以进一步提高自动驾驶的上限。刚才小鹏也讲了自动驾驶开发了很多年了,当然我本人也在自动驾驶上工作超过十年了,也见证了自动驾驶整个的变化和进展。

其实自动驾驶,包括现有的算法是基于规则的,自动驾驶这件事讲起来很简单,从你看到什么,包括它怎么做,控制也很少,两个维度,一个是纵向,一个是横向。但是要把它很好的拆解是很难的事情,现在大部分的算法栈还是很深的算法栈,怎么说呢,有很多人类的工程师想出来的一些信号,这些信号是关键的。比如说你要知道别的车现在在哪,不光要知道它在哪,而且你要知道它的速度,它的加速度,要精确到 精确的程度,三维上进行规划,通过这种方式 。但是通过人类信号或者是特征,我们都叫做(86:46)在很多时候会限制算法栈的上限。现在这个上限可以用三点来考虑。

,对于行为的量化,其实人类开车的话 灵活,但是从自动驾驶算法上,特别是规则维度的算法栈来讲会过度量化人的行为,好的算法栈在状态机里面会有上百种行为。比较基础的算法栈,比如说做LCC可能就是一到两种行为。但是不光你怎么做量化,怎么做清洗,你会看到有时候车开得比较机械。

第二点,我觉得现有的算法栈在通用性上有 大的限制,因为我们为了训练一个模型的话,特别是感知模型,需要上百万辆数据集修复,在规控上也是这样。所以就会导致大量的工程量和 量,通用性上在数据没有见过的地方,当然还有一些比较经典的数字,翻过来的大卡车,或者是很难见到的场景,车就会不知道怎么反应。因为自动驾驶在大部分的时候都是小脑问题,不太需要做逻辑推理的,但是如果要真正把车开好,在很多时候还是需要逻辑推理。其实对于原来的这套算法是一个限制,整个自动驾驶的算法栈是一个对于时间上的记忆能力,或者是逻辑能力 弱的,大概就是几秒钟这样的能力。

第三,也是通过tran ormer,通过大模型空间上 强的关联能力,可以形成一个 强的记忆能力,在LLM上都可以看到了,我觉得对于未来自动驾驶通过端到端大模型,真的是可以把我们现在能够想到它的一些上限完全推到一个 不一样的高度了。再往后,因为有了这样的能力,我们可以处理各种复杂场景,这样的一种L2++的能力可能会出现,从原来百公里接管变成千公里和万公里,这是用户可以见到的,可以真正打开L3到L4的大门。

现在的话,我刚才说的这三个限制其实通过端到端,通过大模型都可以 有效的 ,真正的把行为的量化问题,通过数据驱动让它的问题变得 拟人,这是我们看到 好的例子了,通用化的例子,通过大模型的上限,通过互联网的量级训练过,对物理世界的理解已经远远超越了汽车驾驶的场景。有了这样通用能力,我们相信自动驾驶可以 高的提高它的上限。

刘湘明:总结一下,二位一个是觉得未来还是 光明的,但是还是受到很多限制,小鹏提到软件和硬件,我也是学软件出身。一个母亲生一个小孩需要10个月时间,但是用10个母亲生一个小孩还是需要10个月的时间。时间很紧张,所以我们热身问题花了10分钟的时间,上一个强度,FSD 入华已经在敲门了,您二位怎么看这一轮技术加速给市场带来的冲击?我特别想听听你们判断一下,未来谁会留在牌桌上?

吴新宙:我回答 个问题,FSD我在美国开得也 多,特斯拉每一步给大家验证了这个东西是可行的,这是FSD最大的一个作用,推动了业界往下一步的发展。它真的是提高了上限,很多动作就变得 拟人化,这个 重要。但是同时其实FSD 下限问题还没有完全 掉,原来逻辑错误在FSD还是有,它可以是大模型上限的 步尝试。FSD入华来说,我借用小鹏经常说的两个字,不慌。中国场景还是有很多的复杂东西在里头,我相信,当然我在中国从业也比较久,在座的可能别的车厂的同仁也是觉得其实中国车厂在这个技术上的积累是 好的,哪怕是同台竞技,也是不分伯仲的水平。

刘湘明:小鹏你两个问题都回答一下。

何小鹏:我觉得FSD在去年有了长足的进步,如果说以前不管是中国的NGP,还是海外FSD都是一个很基础的自动辅助驾驶,但是FSD用端到端的大模型之后让我们看到的一个巨大的变化,就是更拟人,很流畅,是当地的老司机。比如说我是一个杭州老司机,一定比我是来自于其他城市的老司机开得要好,所以我觉得FSD入华我是 期盼的。我们是需要不一样的,很好的技术去冲击这个市场,能够让我们看到这个市场的变化,包括小鹏的NGP,我最近在开端到端的全域模型 版,已经看到在整个横向的切线、转弯、并道巨大的变化。甚至感觉它比我开车切线还要流畅和有效率,这个变化大家一定要体会。

未来在牌桌上的玩家会比较少,如果是一个硬件,它没有什么软件,或者是更多的时候有AI,我认为它的品牌、规模、质量的价值是 之大的。但是如果当拥有了AI之后,全球将来的硬件+软件,也就是说小鹏期望做到的全球AI汽车组合的时候,你会发现最后的几个能力要有一个巨大的变化, 个是生产能力,以前的汽车公司大部分是什么?叫集成研发,也就是把别人的能力合并在一起,做出一个符合用户需求的产品。但是我们可以看到全球的软件公司,互联网公司,移动互联网公司等科技公司大部分是自己研发,在核心的领域自研,其他的领域集成。这是 个生产能力的方式,生产方式的变化。

第二销售方式的变化,今天我们可以看到,以前的汽车基本上我负责制造,我卖给合作伙伴去销售。所以换个角度,没有办法对汽车进行运营,进行后服务,进行后收费。今天我们看到,包括新造车势力,包括全球很多汽车在最近两三年看中国的汽车,不仅仅看中国的汽车生产模式变化,更多在思考运营方式的变化。所以运营方式的变化需要你能够就像端到端,或者全栈从产品研发到最后的售后服务运营,全部要做完。这两个变化会形成最后的规模经济变化,软件的规模经济、硬件的规模经济,全球品牌下足够的规模,这两个规模一旦合并在一起,中国将来会有机会换一个赛道出现全球性的汽车公司,但是会比较小。下一个阶段的赛点就是谁能够每年生产和销售100万台全AI汽车?我觉得这也只是一个淘汰赛的入门券,我没有被淘汰,但是真正要赢,我认为还需要更多年限的观察。

刘湘明:小鹏汽车给出了必要条件,大家按照这个条件筛选就可以了。下面也是一个灵魂拷问,我知道两位原来是同事,现在变成了甲乙方,我想问一个问题,小鹏刚才也谈到了整个游戏规则变了,车厂为什么一定需要供应商呢?换句话讲你也做芯片,它也做芯片,车厂做芯片的路可以走通吗?

何小鹏:我觉得NVIDIA可能是我的甲方吧。车厂将来既要做芯片,也要合作芯片。大家不知道原来一台汽油车大概3万个零件,但是芯片大概500颗,现在一台AI汽车,零件数大概小于2万,但是芯片数达到了,我们的统计是5500颗,我们现在的逻辑是主要的芯片可能考虑自己做,但是很多芯片还是跟合作伙伴一起做。主要的芯片,我们现在最主要做的是AI上的推理芯片,这个芯片强算力,强调一台汽车的算力到了几千个T,专有化。

第二,比如说for自动驾驶,机器人,但是还有很多芯片需要社会化的分工,比如说云端算力的芯片要用NVIDIA,有很多本地端的算力芯片也用NVIDIA、高通,和很多国产的芯片,它需要社会分工,但是在专有能力上还是需要自己的芯片能够做得更强,以及做得更便宜。

吴新宙:不能不同意甲方的说法,我觉得是这样,汽车的生态,特别是生成式AI发生以后,其实它会把自主研发全栈这样能力的门槛提得更高,我也 认同小鹏刚才说的看法,牌桌上的选手剩得不会太多,当然车厂还是有车厂的使命,制造 高质量的汽车出来。在这样的前提下,NVIDIA这样的供应商还是 重要的,因为可以补车厂的一些短板,比如说我们NVIDIA也在做大模型,我们对于有能力的车厂把模型提供给他们,也可以提供整体的全栈方案,对于某些车厂来说,可以通过跟NVIDIA合作的方式,我们还有软件供应商,把自己智能的能力提到跟市场的主流产品持平的水平。

当然我们也 乐意提供不管是云端芯片也好,车端芯片也好,包括在车端芯片整体的架构,让有能力的车厂小鹏,还有很多中国新势力造车企业在上面发展,不管是座舱也好,智驾也好,开发他们自己的智能软件,所以供应商的存在还是提供了更多可能性,而不是逼着所有的车厂都做同样的事情,它的成本还是 巨大的。不管是从训练大模型还是开发,自动驾驶,全栈软件都是巨大的投入,不是每个车厂都能够承受的。

刘湘明:再谈谈大模型的事情,自动驾驶的目标已经 清楚了就在那里,路线的选择一直是特别困难的事情,现在大家多在谈端到端,但是L4的小模型基于各种规则的也在谈。你们认为未来大模型会一统天下是一个终级方案,还是未来会有有路线上的漂移呢?

吴新宙:从现有技术框架上来看,不敢说大模型,现在基于生成式AI的方式是最后的方式,但是一定是一个巨大的突破。我刚才也讲了我对自动驾驶的理解,我认为未来有系统的把人类工程师设计的一些方法或者是一些特征点从全栈中逐步去除,这一定是一个不可逆转的趋势。但是,有了大模型的能力以后,当然我们还是 注重安全和全栈的可解释性,还是有一些配合的工作要去做。这是我相信未来一定会发生的。所以,我是觉得回到主持人的问题,是相信这是一个不可逆转的趋势,但是很难讲。一定会有新的,技术的下一步突破让我们看到更多的可能性。

何小鹏:我是很认同吴新宙所说的,如果从十年、二十年看,不知道今天大模型的是不是最后的,但是一定比以前的算法泛化、规模能力更强。我跟很多L4的公司聊天,他们都认为他们用原来的方式,高精地图加上一个区域,写很多规则能够把接管率做到 是一个最正确的道路,我不是很认同。我觉得它是从软件的角度看一个世界的,如果从硬件角度,比如说我关注的是能不能把它做到规模,当你足够大的规模以后才有足够低的成本。一个很简单的问题,为什么手机摄像头做得很小,汽车的摄像头做得很大。最开始我进入这个行业觉得一个是车规,一个是消规,错了,规模。 要注意,我们要想做到极大的规模,一定是原来的L4体系做不到的便宜,足够大的规模。第二硬件里面还有一个 重要的点,是可扩展性,我们不像一个手机,一个手机买了一年之后,硬件相对落伍了,你可以买新的手机。 

在一个大型的硬件,无论是汽车、机器人,或者是以后的AI+大型硬件的组合,对于消费者来看都是花了一万块钱,十万块钱,甚至数十万买的硬件,如何持续、稳定的发展 重要,不可能因为技术的发展,明年就是另外一套技术架构了,明年是另外一个模型,自己把自己颠覆了。所以在硬件的逻辑体系里面,我一直都认为L4的逻辑是在于一个小范围,然后相对很稳定,它能够做得好。但是一旦当端到端的模型,当它的下限能力在明年会快速提高,下限能力快速提高之后,只用两年就可以在全球范围内做到超过L4的标准能力,这个时候成本又低,下限又高,上限更高,完全是一套不一样的降维打击冲击整个L4。

刘湘明:我简单做一个小结,我最近一直有一些特别奇怪的论段,我在跟很多同事讲说我们这一代人是历史进程上最后一批大规模会写代码的人,最后一批大规模会从零开始写文章的人,可能也是最后一批会自己开车的人。所以今天二位讲了讲,我觉得这个论段是可以大概率做实了。我还有三个历史时刻的说法,回想一下我们长这么大 个历史时刻,就是家里搬回来 台电视,觉得科技好先进,第二个历史时刻,家里开回来 辆汽车,觉得好了不起,第三个历史时刻就是家里来一个人形机器人,但是我没有想好到底我们是开箱把它打开,还是自己敲门进来,这个没想好,所以下一个命题就是转给下一个环节讨论。

关键词:小鹏模型一个