2024年端到端自动驾驶研究报告 >> 水清木华研究中心

　　1、国内端到端方案现状

　　端到端自动驾驶是直接从传感器信息输入(如摄像头图像、LiDAR等)到控制命令输出(如转向、加减速等)映射的一套系统，最早出现在1988年的ALVINN项目，通过相机和激光测距仪进行输入和一个简单的神经网络生成的转向进行输出。

　　2024年初，特斯拉FSD V12.3版本发布，智驾水平让人惊艳，端到端自动驾驶方案受到国内主机厂和自动驾驶方案企业的广泛关注。

　　与传统的多模块方案相比，端到端自动驾驶方案将感知、预测和规划整合到单一模型中，简化了方案结构，可模拟人类驾驶员直接从视觉输入做出驾驶决策，以数据和算力为主导，能够有效解决模块化方案的长尾场景，提升模型的训练效率和性能上限。

　　传统多模块方案与端到端方案的对比(部分)

来源：佐思汽研《2024年端到端自动驾驶研究报告》

FSD V12.3版本实测图

来源：公开渠道

部分主机厂对端到端方案落地量产的规划

来源：佐思汽研《2024年端到端自动驾驶研究报告》

　　理想端到端方案

　　理想认为，完整的端到端需要完成感知、跟踪、预测、决策、规划整个过程的模型化，是实现L3级别自动驾驶的最佳方案。2023年，理想推送AD Max3.0，其整体框架已经具备端到端的理念，但距离完整的端到端尚有一定差距，2024年理想预计以此为基础，推进该系统成为一个彻底的端到端方案。

　　理想构建的自动驾驶框架如下图，分为两个系统：

　　•快系统：System1，感知周围环境后直接执行，为理想现行的端到端方案。

　　•慢系统：System2，多模态大语言模型，针对未知环境进行逻辑思考与探索，以解决L4未知场景下的问题。

理想自动驾驶框架

来源：理想汽车

　　在端到端方案推进的过程中，理想计划把规划/预测模型与感知模型进行统一，并在原基础上完成Temporal Planner的端到端，实现泊车/行车一体化。

　　2、数据成为端到端落地的关键

　　端到端方案的落地需要经历构建研发团队、配置硬件设施、数据收集处理、算法训练与策略定制、验证评估、推广量产等流程，部分场景痛点如表中所示：

端到端方案的部分场景痛点

来源：佐思汽研《2024年端到端自动驾驶研究报告》

　　其中，端到端自动驾驶方案中的一体化训练需要大量的数据，因此其面临的难点之一在于数据的收集和处理。

　　•首先，数据的收集需要大量的时间和渠道，数据类型除了驾驶数据外还包括各种不同的道路、天气和交通情况等场景数据，其中在实际驾驶中驾驶员前方视野的驾驶数据相对便于收集，周围方位的信息收集则难以保证。

　　•再次，数据处理时需要设计数据提取维度、从海量的视频片段中提取有效的特征、统计数据分布等，以支持大规模的数据训练。

　　元戎启行

　　截至2024年3月，元戎启行端到端自动驾驶方案已经获得长城汽车的定点项目，并与英伟达开展合作，预计2025年适配英伟达Thor芯片;在元戎启行的规划中，从传统方案过渡到“端到端”自动驾驶方案，经历传感器前融合、去高精度地图、感知决策控制三个模型一体化等环节。

元戎启行在数据环节的布局

来源：佐思汽研《2024年端到端自动驾驶研究报告》

　　极佳科技

　　极佳科技的自动驾驶世界模型DriveDreamer，具备场景生成、数据生成、驾驶动作预测等功能;在场景/数据生成上，分为两个步骤：

　　•涉及单帧结构化条件，引导DriveDreamer生成驾驶场景图像，便于其理解结构交通约束。

　　•将其理解扩展到视频生成。利用连续的交通结构条件，DriveDreamer输出驾驶场景视频，进一步增强其对运动转换的理解。

DriveDreamer的功能包括可连续驾驶视频生成、与文本提示和结构化交通限制无缝对齐

来源：极佳科技

　　3、端到端方案加快具身机器人落地

　　除了自动驾驶汽车，具身机器人是端到端方案另一个主流场景。从端到端自动驾驶到机器人，需要构建更加通用的世界模型，来适应更加复杂、多元的现实使用场景，主流AGI(通用人工智能)发展的框架分为两个阶段：

　　•阶段一：基础大模型理解和生成实现统一，进一步与具身智能结合，形成统一世界模型;

　　•阶段二：世界模型+复杂任务的规控能力和抽象概念的归纳能力，逐步演化进入交互AGI 1.0时代。

　　在世界模型落地的过程中，构建端到端的VLA(Vision-Language-Action) 自主系统成为关键一环。VLA作为具身智能基础大模型，能够将3D感知、推理和行动无缝链接起来，形成一个生成式世界模型，并建立在基于3D的大型语言模型(LLM)之上，引入一组交互标记以与环境进行互动。

3D-VLA解决方案

来源：University of Massachusetts Amherst、MIT-IBM Watson AI Lab等机构

　　截至2024年4月，部分采用端到端方案的具身机器人厂商如下：

部分具身机器人如何应用端到端方案

来源：佐思汽研《2024年端到端自动驾驶研究报告》

　　以有鹿机器人为例，其具身智能大模型LPLM(Large Physical Language Model)为端到端的具身智能解决方案，通过自我标注机制提升模型从未标注数据中的学习效率和质量，从而加深对世界的理解，进而加强机器人的泛化能力与跨模态、跨场景、跨行业场景下的环境适应性。

LPLM模型架构

来源：有鹿机器人

　　LPLM 将物理世界抽象化，确保该类信息与 LLM 里特征的抽象等级对齐，将物理世界中每一个所指的实体显式建模为 token，编码几何、语义、运动学与意图信息。

　　此外，LPLM 在自然语言指令的编码中加入了 3D grounding，一定程度上弥补了自然语言不够精确的缺陷;其解码器能够通过不断预测未来的方式去学习，从而加强了模型从海量无标签数据中学习的能力。

1 端到端自动驾驶技术基础
1.1 端到端自动驾驶术语与概念
1.1.1 端到端自动驾驶术语解释
1.1.2 端到端自动驾驶发展历程（1）
1.1.3 端到端自动驾驶发展历程（2）
1.2 端到端自动驾驶现状
1.2.1 自动驾驶ADS算法产业化的发展历程
1.2.2 E2E-AD模型量产现状
1.2.3 E2E-AD进展与挑战
1.3 端到端E2E-AD运动规划模型对比分析
1.3.1 自动驾驶端到端E2E-AD轨迹规划：几类产业界和学术界经典模型对比分析
1.3.2 Tesla：感知决策全栈一体化模型
1.3.3 模型2
1.3.4 模型3
1.3.5 模型4
1.3.6 模型5
1.4 端到端E2E-AD模型对比分析
1.4.1 地平线VADv2：基于概率规划的端到端驾驶模型
1.4.2 模型2
1.4.3 模型3
1.4.4 模型4
1.4.5 模型5
1.5 端到端自动驾驶E2E-AD模型典型案例
1.5.1 案例1--商汤E2E-AD模型UniAD
1.5.2 案例2
1.5.3 案例3
1.6 具身语言模型 ELM
1.6.1 具身语言大模型加快端到端方案落地
1.6.2 具身语言大模型应用场景（1）
1.6.2 具身语言大模型应用场景（2）
1.6.2 具身语言大模型应用场景（3）
1.6.2 具身语言大模型应用场景（4）
1.6.2 具身语言大模型应用场景（5）
1.6.2 具身语言大模型应用场景（6）
1.6.2 具身语言大模型应用场景（7）
1.6.3 具身语言大模型局限性与积极影响

2 端到端自动驾驶的技术路线和发展趋势
2.1 场景痛点
2.1.1 场景痛点与解决方案：算力供应/数据获取
2.1.2 场景痛点与解决方案：团队构建/可解释性
2.2 发展趋势
2.2.1 趋势一
2.2.2 趋势二
2.2.3 趋势三
2.2.4 趋势四
2.2.5 趋势五：通用世界模型：AGI的三种范式变化和体系构建
2.2.6 趋势六
2.2.7 趋势七

3 端到端自动驾驶在乘用车领域的应用
3.1 端到端自动驾驶国内厂商动态
3.1.1 各主机厂端到端大模型技术对比
3.1.2 各供应商端到端大模型技术对比
3.1.3 智能汽车端到端自动驾驶专利情况
3.2 元戎启行
3.2.1 元戎启行端到端方案实施进度
3.2.2 元戎启行端到端方案与传统方案的区别
3.3 毫末智行
3.3.1 毫末智行端到端方案构建策略
3.3.2 毫末智行采用强化学习/模仿学习技术
3.3.3 毫末智行端到端方案训练方式
3.4 鉴智机器人
3.4.1 采用交互场景图用于智能体
3.4.2 GraphAD构建路径
3.4.3 GraphAD测试结果
3.5 企业5
3.6 企业6
3.7 企业7
3.8 企业8
3.9 企业9
3.10 企业10
3.11 企业11
3.12 蔚来
3.13 小鹏
3.14 理想
3.14.1 理想端到端方案
3.14.2 理想现行自动驾驶方案
3.14.3 理想DriveVLM大模型
3.15 企业15
3.16 企业16
3.17 XX大学
3.18 XX大学

4 端到端自动驾驶在机器人领域的应用
4.1 人形机器人端到端技术进展
4.1.1 人形机器人是具身智能的载体
4.1.2 英伟达GTC 2024大会：参与展示的几家核心人形机器人公司
4.1.3 全球人形机器人需求趋势预测
4.1.4 全球人形机器人特性对比总结
4.2 人形机器人：Figure 01
4.2.1 Figure 01人形机器人特性
4.2.2 Figure 01人形机器人工作原理
4.2.3 Figure 01人形机器人功能
4.2.4 Figure 01人形机器人发展
4.3 零次示范自主机器人开源模型O模型
4.3.1 零次示范自主机器人开源模型O模型落地原理
4.4 英伟达GR00T机器人项目
4.4.1 英伟达GR00T项目-机器人基础大模型开发平台
4.4.2 英伟达GR00T项目-机器人学习和扩展开发工作流程
4.4.3 英伟达GR00T项目-机器人Isaac仿真平台
4.4.4 英伟达GR00T项目-Omniverse Replicator平台
4.5 机器人案例5
4.6 机器人案例6
4.7 机器人案例7
4.8 机器人案例8
4.9 机器人案例9
4.10 基础大模型+机器人的现状与未来
4.10.1 大模型在机器人领域应用
4.10.2 大模型在机器人领域的端到端E2E应用与未来展望
4.10.3 具身智能未来趋势

5 端到端自动驾驶项目如何落地
5.1 E2E-AD项目落地案例：特斯拉
5.1.1 Tesla自动驾驶Autopilot硬件和解决方案发展史
5.1.2 Tesla自动驾驶Autopilot自研硬件进化历史与FSD v12.3版本算力需求
5.1.3 特斯拉Autopilot：多任务端到端E2E学习技术方案介绍
5.1.4 特斯拉E2E团队简介
5.1.5 Tesla招聘中的大部分AI关键岗位信息介绍
5.1.6 特斯拉E2E研发年投入估算
5.2 E2E-AD项目落地案例：Wayve
5.2.1 英国Wayve介绍
5.2.2 E2E数据生成案例
5.2.3 如何构建E2E-AD系统
5.2.4 英国自动驾驶公司Wayve团队布局
5.3 团队构建与项目预算
5.3.1 自动驾驶项目：投资与团队规模对比分析
5.3.2 E2E-AD项目：顶层系统设计与组织架构设计
5.3.3 E2E-AD项目：开发团队布局预算与竞争力构建
5.3.4 E2E-AD项目：岗位设计与岗位描述
5.3.5 国内主机厂端到端自动驾驶团队构建案例
5.4 车端E2E自动驾驶系统设计
5.4.1 E2E-AD项目开发业务全流程
5.4.2 E2E-AD项目业务流程参考（1）
5.4.3 E2E-AD项目业务流程参考（2）
5.5 云端E2E自动驾驶系统设计
5.5.1 E2E-AD项目业务流程参考
5.5.2 E2E-AD项目云端设计（1）
5.5.3 E2E-AD项目云端设计（2）