马斯克直播试驾特斯拉FSD V12！世界首个端到端AI自动驾驶，1万块H100训练

共 4672字，需浏览 10分钟

·

2023-08-30 23:37

新智元报道

编辑：编辑部

【新智元导读】特斯拉FSD将迎来重磅级更新！马斯克现场直播演示第一个端到端AI自动驾驶系统FSD V12测试版，引百万网友围观。

当地时间8月26日，马斯克亲自上线开启了一场FSD Beta V12试驾直播，引百万人现场围观。

据称，FSD Beta V12是有史以来第一个端到端AI自动驾驶系统（Full AI End-to-End），是特斯拉最重要的一次升级。

直播45分钟，FSD Beta V12系统在行驶全程进展非常顺利，能够轻松绕过障碍物，识别道路各种标志。

马斯克激动地表示：

V12系统从头到尾都是通过AI实现。我们没有编程，没有程序员写一行代码来识别道路、行人等，全部交给了神经网络。

具体来说，V12的C++代码控制减少了10倍，从2万多行减少到2千行。

独特的地方在于，特斯拉99%的决策都交给神经网络给出，视觉输入，控制输出，就像人类大脑一样。

另外，它所拥有的超强能力，是经过巨量的「视频数据」、1万个H100加持下完成的。

不过，直播中，V12出现仅有一次的小失误，试图闯过红灯，让人类去主动干预。马斯克现场来了个紧急刹车。

马斯克表示，FSD Beta V12仍在调试中，因此还没有确定正式发布的时间。

马斯克：我们没有编程

马斯克这场实时直播，出发点是特斯拉总部。

马斯克单手开启特斯拉Model S后，全程45分钟，自己举着手机录下V12的行驶全程。

马斯克在地图上随机选择了一个目的地——斯坦福。看看V12是如何带他去往第一个目的地。

行驶中，马斯克称，特斯拉遇到的这些建筑、道路标志，是从未见过的。虽然离总部很近，但是对其来说还是新事物。

走到交叉路口时，特斯拉主动停了下来，并耐心等待信号灯变化。

马斯克笑着调侃道，它做到了！

绿灯后，特斯拉平稳地进行了左转。

马斯克表示，这完全是通过人工智能和摄像头实现的，就如同我们大脑运作方式一样，对应之为神经网络和眼睛。

遇到减速带时，V12让汽车缓慢行驶。

马斯克激动地称，没有一行代码让特斯拉，在停车标志处停车，或等待另一辆车，没有「等待x秒」之类代码。这都是神经网络，除了神经网络什么也没有。

说着说着，第一个目的地斯坦福到了。马斯克还是惦记着和小扎来场笼斗，因此第二个目的——小扎的家。

然后，他输入了小扎家的地址，让V12加持的特斯拉带路。

路上，特斯拉绕着一个环形交叉路口行驶时，V12再次展示了顶级水平。

在等待前两辆车开走后，然后决定转弯行驶。

这里，马斯克再次重申道，团队从未对环形交叉路口的概念进行编程。我们刚刚向它展示了一堆关于环形交叉路口的视频。

简之，V12是通过大量的视频训练数据来实现这一目标。

FSD AI现在只输入大量视频，以便识别在不同情况下需要做什么，而不是对每个道路元素或情况进行单独编码。

这使得特斯拉能够省去FSD V12中的数十万行代码，使其更加轻便、更灵活，同时它仍然可以在不熟悉的地形上无需数据连接的情况下工作。

马斯克介绍，所有这些都是在Tesla HW3上完成的，推理计算功率约为100瓦。所有推理无需网络连接，在本地进行。显然这是必要的，如果没有互联网连接，你就无法安全驾驶。

停车后，马斯克还谈到了特斯拉的帧率。

我们正在以全帧率运行。8个摄像头以每秒36帧的速度进行拍摄。纯AI版本比「普通软件和人工智能混合」的版本运行得更好更快。

事实上，它的拍摄速度将超过每秒36帧，只是摄像头只能达到36 fps。据我们推算，它可能以每秒50帧的速度拍摄，实际路况基本上只需要每秒24帧，FSD V12就可以正常工作。

小扎的家到了，马斯克没有下车，反而转身决定去下一个目的地Palo Alto。

直播中，马斯克还展示了V12到达目的地后，自动将车停到合适的位置。

「视频数据」直接训AI

马斯克曾表示，FSD V12将成为4级自动驾驶系统。

在今年6月底，马斯克就宣称，Tesla的自动驾驶FSD V12版本将不会再是测试版。

直播演示中，马斯克也提到了对于通过AI训练视频数据来实现自动驾驶这个方向可能面对的挑战。

「仅仅因为没有代码行并不意味着它不可控。现在只需拥有数据，你仍然可以实现控制。」

首先是，训练视频的质量非常重要，所以只能用优秀司机的驾驶视频来训练，而不能用技术不好的司机的数据。

当前，已经有相当多的软件可以实现选择什么数据、训练什么数据。

所以数据量不重要，数据的质量才是提供安全自动驾驶技术的关键。

对于汽车来说，能够运行的软件很小，但后端训练的软件要大得多，更加复杂。

因此，V12系统使用了Python的普通软件来决定从队列中选择哪些数据，然后确定什么是高质量数据，什么是相当好的数据。

一旦有了AI模型，还可以将这些模型以「影子模式」（shadow mode）传送到系统上，然后每次它与用户所做的事情不一致时，特斯拉都会得到数据，这比仅仅收集随机数据更有价值。

用V12的FSD可以识别人像，只要传一张照片，然后告诉汽车你在星巴克门口。车到了之后会找到你，接你上车。因为它可以自动找到星巴克，然后根据照片找到乘客。

马斯克表示，我们实际上对系统拥有一个非常快速的良性循环反馈感到兴奋。

当人类对汽车进行干预时，干预行为就会自动上传，训练与训练相结合，然后实际上只是更新权重。

在V12的编程中，特斯拉团队并没有加入交通信号灯概念，而存在于V11的普通堆栈中。

汽车能够流畅行驶，主要是基于视频训练。

「我们已经从V11的显式控制堆栈中的超过300,000行C++进行了转换，而在V12中基本上没有这些内容」。

还有一个有趣的困难是，对于停车问题，因为人类在遇到停车标识时不会真的停下来，只会降到很低的速度，大概只有不到1%的驾驶员会完全让车停下来。

但是监管机构要求必须完全停下来，这样就必须专门训练FSD在这些情况下完全停车。

直播中唯一一次干预，是由于搭载了V12系统的Modle S在遇到红灯时并没有停下来。

对此，马斯克现场表示，我们只需要再多喂一些包含大量交通信号灯的视频，问题就能解决了。

未来两周，特斯拉将会发布在后台运行的Shadow Moon，能够对行驶状况进行检查。

另外，马斯克提到这套系统有一个问题是如何应对低能见度的驾驶条件。

因为特斯拉所在总部加州从不下雨，所以需要世界各地各种天气条件的驾驶视频进行训练。

目前，FSD V12在全球有12名试驾人员，遍布新西兰、泰国、挪威和日本等地。

1万个H100训练，Infiniband比GPU还缺

他还在试驾直播之前串进了WholeMars的Space，和里面的开会的网友聊了10多分钟，为自己的直播预热。

网友看到他进来了，就不自觉地开始采访他，他也顺势打开了话匣子，和网友聊了聊自己马上要进行的直播和相关的问题。

首先他说特斯拉已经马上要上线由10000块H100组成的GPU集群，来训练新版本的FSD系统。

现在训练过程基本上都要全完依赖英伟达的GPU，只有很少一部分会使用自己的超算Dojo。

而目前他们遇到的最大技术困难是需要像Infiniband那样的高速网络连接来并行更大的算力。

GPU虽然短缺，但是至少有改善的希望，但是现在支持Infiniband设备短缺比GPU的短缺还严重。

大规模密集型的计算集群之间的数据交换会很困难。

而对于英伟达的依赖会持续很长的时间。

聊着聊着，马斯克又不自觉地进入了地球球长的角色，说到：

而长远来看，未来人类会成为强计算依赖的文明，有80%-90%的能源消耗在计算之上。

所以改善现有计算基础设施的能效比是很重要的事情。

Transformer的能效比不太好，效率也不高，用户使用的延迟过长，需要进一步的优化。

GPU的能耗比也不太好，而且现在像H100这样的GPU已经不会输出图像了，所以叫GPU已经不太合适了。

马斯克还在推上表示，使用自回归Transfomer的LLM能效极差，不仅在训练中如此，在推理中也是如此。我认为它偏离了几个数量级。

接下来，马斯克就开始为他即将进行的直播造势，聊起了自己将演示FSD V 12的上路直播。

他反复强调Tesla在新版FSD的加持之下，将会带来非常顺滑的乘坐体验。

能够模拟优秀的司机来驾驶汽车，不会像之前的系统一样偶尔显得像一个新手开车一样。

聊到这里，他拂袖而去，最后只留下一句话，让大家赶紧去看他马上开始的自动驾驶的直播。

不得不说，公关流量这一块，马老板玩得是明明白白的！

网友热议

看完这次的直播之后网友纷纷表示，一切看起来都很nice！

不用联网实在是太棒了。

还有人称，简直就是DriveGPT。

目前看来没有任何自动驾驶技术能接近这个表现。

但也有网友表示，V12的新任务是接受亚洲交通的考验，并上了一段中国某路口的视频......

这位网友贴心地总结出了他认为视频中的亮点：

特斯拉的推理只需要100w的功率支持，不用联网

能自动处理环岛，自行车，行人。

所有的训练都是基于英伟达的GPU和Dojo，而且AI驾驶连地图都不需要，只需要GPS数据就行。

参考资料：

https://twitter.com/elonmusk/status/1695247110030119054

浏览 78842

点赞

收藏

分享

举报

评论

图片

表情

ICLR2021 | 显存不够？不妨抛弃端到端训练

ICLR2021 | 显存不够？不妨抛弃端到端训练

程序员大白

LLaVA端到端训练的大型多模态模型

LLaVA是一个面向多模态GPT-4级别功能构建的大型语言和视觉助手。代表了一种端到端训练的大型多模态模型，连接视觉编码器和LLM以实现通用视觉和语言理解。Demo早期实验表明，LLaVA展示了优秀的

LLaVA端到端训练的大型多模态模型

LLaVA 是一个面向多模态 GPT-4 级别功能构建的大型语言和视觉助手。代表了一种端到端训练的大

DeepPavlov端到端对话系统和聊天机器人训练库

DeepPavlov 是一个开源的对话 AI 库，基于 TensorFlow 和 Keras 构建，

DeepPavlov端到端对话系统和聊天机器人训练库

DeepPavlov是一个开源的对话AI库，基于TensorFlow和Keras构建，其作用是：NLP和对话系统研究；实现和评估复杂对话系统。目标是为研究人员提供：一个框架，用于实现和测试他们自己的对

DeepSpeech端到端自动语音识别

DeepSpeech是一个采用 PaddlePaddle 平台的端到端自动语音识别（ASR）引擎的开源项目，具体原理参考这篇论文 Baidu'sDeepSpeech2paper。我们的愿景是为语音识别

DEEP数字企业端到端平台

DEEP（DigitalEnterpriseEnd-to-endPlatform）是由AWS支持的成本低，维护成本低的数字化平台。帮助企业开发人员提高工作效率。使用DEEPFramework，开发人员

如何构建端到端联邦学习？

智能计算芯世界

Playwright 可靠的端到端测试