2026智能驾驶端到端大模型研究报告 >> 水清木华研究中心

随着自动驾驶技术从 L2 级向 L3 L4 级快速迭代演进，智驾系统正由传统规则驱动模式，深度转向数据驱动 + 认知驱动的新一代架构，智驾大模型作为底层核心支撑，已成为当前行业竞争的核心赛道。伴随物理 AI 时代加速到来，自动驾驶成为其首个规模化落地场景，将推动汽车加速进化为超级智能体，突破传统交通工具属性，打造串联移动出行、移动办公、家庭生活及第三方生态的全场景智能枢纽。

从产业现状来看，当前物理 AI 仍处于技术裂变初期，全球自动驾驶市场具备极大待释放空间。从数据来看，全球乘用车保有量约 15 亿辆、商用车及卡车 2.8 亿辆、营运出租车 1800 万辆，全球年度总行驶里程达 13 万亿公里，而自动驾驶行驶里程仅 7 亿公里，自动驾驶里程占比仅约 0.006%，未来增量潜力显著。

结合技术落地节奏进一步判断，智能驾驶大模型正迎来关键技术迭代窗口：分段式端到端方案已于 2024 2025 年实现规模化量产，一段式端到端与 VLA 技术于 2025 2026 年集中落地；叠加智驾体验持续升级、L3 L4 高阶自动驾驶技术加速成熟，物理AI加速到来，佐思汽研预测智驾大模型将出现三大演进趋势。

趋势一：2026 年智驾大模型演进的核心焦点，将集中于多技术路线的博弈竞逐与深度融合

融合模式一：一段式端到端+世界模型+强化学习，代表厂商：文远知行、Bosch、Momenta

方案特点：一段式端到端为智驾核心神经网络，直连传感输入与驾驶输出，信息零损耗、性能上限极高；世界模型负责路况未来推演，可低成本生成海量长尾场景用于仿真训练；强化学习依托奖励机制，在推演空间中迭代优化，输出最优驾驶策略，应对各类突发工况。三者结合，就形成了一个“数据生成（世界模型）→ 策略训练（强化学习）→ 决策执行（端到端模型）”的强大闭环。这使得智驾系统能从海量驾驶数据中自我学习，不断进化。

融合模式二：E2E+基础模型（VLM/VLA）+强化学习+世界模型，代表厂商：地平线、千里科技

方案特点：视觉语言大模型做“大脑”负责认知推理，端到端小模型做“小脑”负责快速执行;

地平线采用一段式E2E+VLM+强化学习+世界模型，地平线以强化学习为核心的“快思考 + 慢思考”双轨智驾架构，它以强化学习为中枢，一边通过世界模型和仿真训练，赋能端到端直觉模型，让其在毫秒级响应的同时，补全罕见短时序长尾场景的处理能力；另一边通过推理强化，赋能 VLM 认知模型，强化其长时序复杂场景的语义理解与逻辑推理能力，最终实现 VLM 能力向车端端侧模型的迁移，并通过量化、蒸馏完成轻量化部署，构建起 “毫秒级快反应 + 长时序慢推理” 的平衡闭环。

千里科技：采用了VLA+E2E+世界模型架构，其中VLA模型负责推理类似于慢系统高阶决策，E2E端到端算法负责映射行动类似于快系统。其中32B 参数大模型做大规模多模态预训练（VLM)→蒸馏为 7B 轻量模型，兼顾性能与部署性(VLM)→对齐感知与驾驶动作，引入驾驶领域知识(VLA）→监督微调，学习高层驾驶策略与行为规范→强化学习对齐人类驾驶风格与安全约束，实现感知 - 决策 - 控制闭环优化。

融合模式三：VLA+世界模型，代表厂商：卓驭科技、小鹏

方案特点：VLA负责感知当前环境、学习历史驾驶模式，决定下一步动作。世界模型负责推演未来5到10秒内，道路上每一个目标会如何互动。VLA擅长理解当下，但不擅长预测未来；世界模型擅长预测，但不对预测结果做反思推理。两者结合，才是完整的大脑。

趋势二：VLA与世界模型融合范式，有望成为“物理AI”落地的主流方式之一

智驾大模型未来演进的核心是从“模仿人类驾驶”向“理解物理世界”的底层范式根本性重构。VLA和世界模型并非“非此即彼”的选择。未来的智驾大模型将是两者的融合之作。目前两条路线的分歧点在于VLA认为“理解”是驾驶的前提，世界模型则认为“预测”才是关键。

世界模型的拥趸者认为，物理世界的变化是连续、高维的。语言是离散、低维的符号系统——从物理到语言的转化，必然伴随信息损失。世界模型直接操作物理表示，带宽更高。VLA的拥趸者则认为，VLA最大的好处是它可以微调，可以用世界模型或者说基于模型的强化学习微调，它可以吸收世界模型的优点，而世界模型无法利用VLM/VLA的优点。语言带来的强泛化能力，语言是人类常识的压缩包。VLA通过语言拥有了“常识推理”能力，思维链CoT，模型具备自我解释能力。

基于两大路线的各自优势与分歧，行业已开始探索二者的融合路径。目前VLA与世界模型的主流融合方式有潜空间统一融合、架构层面的深度融合、模块化协作型融合（云端仿真器型）3类。

融合模式一：潜空间统一融合，代表Xiaomi OneVL、华为DriveVLA-W0

核心在于将世界模型的预测能力嵌入到VLA的训练目标中，而不是在推理阶段增加额外模块。具体而言，它在VLA模型的训练过程中加入了一个未来图像预测任务，让模型不仅要学会预测动作，还要学会预测未来时刻的环境状态（即未来图像）。这种设计使得模型被迫学习驾驶环境的底层动态规律，而非仅仅拟合稀疏的动作监督信号。

潜空间统一融合案例分析1：Xiaomi OneVL自动驾驶模型

小米2026年5月13日正式发布并全面开源自动驾驶模型Xiaomi OneVL，它将VLA、世界模型和潜空间推理三大技术路线统一到同一框架中。该模型的核心突破在于以潜空间推理实现多技术范式的深度统一，区别于传统方案将推理过程拆解为可被人类阅读的自然语言、逐字生成推演逻辑，Xiaomi OneVL 直接在高维向量化的潜空间内完成端到端逻辑运算。这一潜空间同时集成 VLA 的场景感知理解能力与世界模型的环境时序预测能力，全部推理运算均在向量层级开展，而非文本层面，相较传统 VLA 方案可实现推理效率的显著跃升。

Xiaomi OneVL 架构
端到端大模型1.png
图片来源：小米

在实现机制上，首先模型内部引入两类隐变量，视觉latent token与语言latent token，前者负责编码场景里的物理关系和时序变化，承载世界模型的预测能力，语言latent token负责表达驾驶意图和语义逻辑，承载VLA的理解能力。

其次，OneVL引入了两个辅助解码器，仅在训练阶段使用。语言辅助解码器负责从language latent token中还原人类可读的CoT文本，解释模型为什么做出某个驾驶决策。视觉辅助解码器则负责从visual latent token中预测未来帧视觉token（0.5秒和1.0秒之后的画面），让模型预判场景变化。推理时，两个解码器全部移除，模型直接输出规划结果，实现了一步式推理，彻底消灭了自回归带来的延迟累积。

潜空间统一融合案例分析2：华为DriveVLA-W0通过世界建模任务预测未来图像

传统VLA模型面临一个根本性问题，监督稀疏（Supervision Deficit），VLA模型的输入是高维多模态数据（包括前视图像序列、语言指令、历史动作等），但监督信号只有低维的动作token。模型的大部分表征能力被浪费，导致其无法充分学习驾驶环境的复杂动态，VLA 模型的巨大潜力也无法被有效释放。

从下图可知，随着训练用的数据量，从70 万帧 → 700 万帧 → 7000 万帧（数据越来越多）的增长，碰撞率呈下降态势，即训练数据越多，安全性提升；但对于没有加入世界模型的传统型VLA技术范式来说，当数据从700万帧肩头7000万帧时，碰撞率下降呈现减缓的态势，说明数据对VLA安全性能提升有限。

数据规模对 VLA、TransFuser、DriveVLA W0 碰撞率的影响
端到端大模型2.png
图片来源：论文《DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving》

为解决VLA监督稀疏、数据缩放定律失效、缺少物理时序预测能力的行业痛点，华为在论文中提出DriveVLA W0训练范式，在训练阶段引入世界模型预测未来图像作为密集的自监督信号，来在保持环境动态的理解能力的基础上，增加未来时序预测。对比于传统VLA，DriveVLA W0，在加了世界建模（预判未来路况），数据越多，优势被急剧放大，数据缩放定律被强化。

具体而言，它在VLA模型的训练过程中加入了一个未来图像预测任务，让模型不仅要学会预测动作，还要学会预测未来时刻的环境状态（即未来图像）。这种设计使得模型被迫学习驾驶环境的底层动态规律，而非仅仅拟合稀疏的动作监督信号。

DriveVLA W0 架构拆解
端到端大模型3.png
图片来源：佐思汽研《2026年智能驾驶端到端大模型研究报告》

融合模式二：架构层面的深度融合，代表VLA-World

不同于预训练融合（外部补强），世界模型作为外部工具，先生成、再传递，架构层面的深度融合是将世界模型能力内化为 VLA 原生能力，规划和生成在同一个架构里共同生长。

VLA World 由上海交通大学与华为中央研究院于 2026 年 4 月联合提出，是将世界模型能力深度内嵌的一体化 VLA 架构。传统方案中，世界模型与 VLA 相互独立，前者负责生成仿真视频，后者承担感知推理与决策输出。而 VLA World 采用单 VLA 主干网络，实现视觉生成与决策推理的特征共享，将轨迹预测、视觉生成整合为同一决策链路的连续环节，遵循先预测运动轨迹、再基于轨迹推演未来画面的因果逻辑，实现模块深度耦合、推理链条高度连贯。

VLA、世界模型、及VLA-World架构对比
端到端大模型4.png
图片来源：论文《Learning Vision-Language-Action World Models for Autonomous Driving》

工作机制：

•轨迹感知条件化：VLA-World的做法是先预测轨迹，再以轨迹为条件生成未来帧：轨迹预测结果直接作为视觉生成的conditioning signal，引导生成过程。这样轨迹决定“去哪里”，画面呈现“到那里时看到什么”，形成因果依赖关系。

•统一生成与推理：不同于过去，世界模型和VLA是两个独立模块。VLA-World将两者共用同一个 VLA backbone，即将视觉生成和推理统一在同一个VLA结构。

•GRPO端到端对齐：强化学习阶段使用GRPO（Group Relative Policy Optimization）优化模型。模型会生成多个候选轨迹和对应的未来画面，然后奖励那些“想象的未来”与“真实安全决策”一致的结果。这一机制让视觉生成不再是独立任务，而是始终服务于下游的决策质量。

趋势三：智驾 AI 加速向基座大模型演进，行业将进入基座模型的通用认知与推理能力的竞争期

2026 年是自动驾驶基座模型推出的元年，元戎启行、千里科技、卓驭科技、理想、小鹏已相继推出相关产品。基座大模型的核心，是搭建通用可复用的物理世界认知底座，实现全等级智驾兼容与跨场景能力迁移。

首先，自动驾驶本质是典型规模缩放问题，当前落地主要受模型容量不足、数据闭环效率偏低制约。首先现有基座模型规模有限，对长尾复杂场景泛化能力不足；其次高价值数据挖掘依赖人工筛选复核，模式碎片化、自动化程度低，长效迭代能力受限。

针对模型容量不足、数据闭环低效两大瓶颈，元戎启行提出以统一 40B 参数 VLA 基座模型破局。核心创新在于“三位一体”的模型角色设计，让同一个模型同时扮演驾驶员（视觉输入→实时驾驶决策）、分析师（对关键场景进行诊断理解）和评论员/裁判（评估驾驶行为的安全性与合理性）这三个角色，使驾驶系统从单纯的执行系统升级为具备认知能力的智能系统。

元戎启行2026推出400亿参数的原生 VLA基座大模型
端到端大模型5.png
图片来源：元戎启行

•在预训练阶段，元戎摒弃了传统端到端模型依赖轨迹监督的做法（数据利用率仅为0.001%），转而采用视频预测任务，让模型通过预测视频序列来学习真实世界的动态结构，使每一个像素都能成为监督信号，将数据利用率提升至接近100%。

•在训练的核心阶段（Mid-train），模型围绕三种任务进行联合训练：首先是V+A（视觉+动作）学习常规端到端驾驶，其次是V+A→L（行动后解释）激活分析师和裁判角色，最后是V→L+A（多模态逻辑推理）训练带推理能力的司机，利用思维链让模型先输出关键事件的语言描述和决策逻辑，再输出具体的驾驶轨迹。

Midtrain 阶段的三大任务
端到端大模型6.png
图片来源：佐思汽研《2026年智能驾驶端到端大模型研究报告》

•在工程落地方面，元戎通过KV Cache、多Token预测（MTP）、模型量化和自研推理引擎等优化手段，将包含1000个视觉Token和数十个推理Token的单步处理延迟控制在60-85毫秒以内，实现了10-15Hz的实时闭环控制能力，并且基座模型可根据车端芯片算力灵活蒸馏，在100 TOPS平台上部署纯驾驶的VA模型，在500 TOPS平台上即可部署带有逻辑推理能力的VLA模型。

其次，基座大模型预训练学习真实世界物理规律与空间逻辑，具备原生零样本迁移能力。用一套通用认知底座，通过模型蒸馏、算力裁剪、能力微调，适配从 L2 辅助驾驶到 L4 自动驾驶的全等级，并以自动驾驶为落地起点，未来迁移至人形机器人、工业机器人等多赛道，实现 “一套基座、万物智能”。

2026年，卓驭科技战略全面转型，以原生多模态基础模型为技术底座，从“智能驾驶Tier1供应商”升级为“移动物理AI公司”，聚焦全场景、跨垂类量产扩张，覆盖乘用车、商用车、L4级产品及出海布局，延伸至具身机器人领域。

卓驭原生多模态基础模型与其他多模态技术范式对标分析
端到端大模型7.png
图片来源：卓驭科技

卓驭推出VLA（VLA World Model，原生多模态 FM）：用统一 Backbone 处理视觉、文本、传感器数据，在隐空间完成物理推理，直接输出驾驶动作，从预训练阶段就用图像 / 视频 / 文本 / 驾驶 / 机器人数据联合训练，在统一的隐空间里做物理世界的预测和推理，既懂语义，也懂物理规律。

卓驭推出VLA世界模型（原生多模态基础模型）的特点
端到端大模型8.png
图片来源：佐思汽研《2026年智能驾驶端到端大模型研究报告》

2026年作为智驾大模型技术迭代与范式融合的关键一年，多技术路线的博弈与融合、VLA与世界模型的协同落地、基座大模型的规模化推出，将共同推动智驾行业从“技术探索”向“规模化落地”加速迈进。无论是多路线融合的技术创新，还是基座模型的通用化布局，核心都围绕“更安全、更高效、更适配真实驾驶场景”的目标，而“物理AI”的落地的趋势，更将推动智驾系统从“模仿人类”走向“理解世界”，实现真正的智能驾驶。

未来，随着技术的持续迭代、产业链的协同完善，智驾大模型将逐步突破现有瓶颈，成为自动驾驶规模化落地的核心支撑，重塑出行领域的发展格局，同时也将推动移动物理AI在更多场景的延伸与应用。

01 端到端智能驾驶技术基础
1.1 端到端智能驾驶术语与概念
端到端智能驾驶术语解释
端到端相关概念的联系与区别

1.2 端到端智能驾驶介绍及发展现状
1.2.1综述
端到端智能驾驶产生的背景
AI大模型对智能驾驶行业格局造成的影响推演
端到端智能驾驶产生的原因：商业价值
Transformer赋能智能驾驶
端到端与传统架构的区别（1）
端到端与传统架构的区别（2）
端到端架构演变
端到端智能驾驶演进路线
一段式端到端与两段式端到端的对比
主流一段式/分段式端到端系统性能参数对标
端到端规模化量产的痛点与解决方案：算力供应/数据获取
端到端规模化量产的痛点与解决方案：团队构建/可解释性
端到端系统的进展与挑战：生成世界模型+神经网络模拟器+RL会加速创新
端到端架构下的感知层
1.2.2 端到端模型实现方式
端到端的两种实现方法
端到端实现方法：模仿学习
端到端实现方法：强化学习
强化学习的基本架构及定义
主流强化学习算法
1.2.3 端到端模型验证方式
端到端智能驾驶数据集评测方式
端到端智能驾驶模型的三大仿真测试（1）— Bench2Drive
端到端智能驾驶模型的三大仿真测试（2）— HUGSIM
端到端智能驾驶模型的三大仿真测试（3）— DriveArena

1.3 端到端智能驾驶经典案例分析
商汤UniAD： AI大模型以路径规划为导向，提供端到端E2E的商业化场景应用
商汤UniAD： AI大模型以路径规划为导向，提供端到端E2E的商业化场景应用
商汤UniAD技术原理及架构
地平线VAD技术原理及架构
地平线VADv2技术原理及架构
VADv2的训练
DriveVLM技术原理及架构
理想汽车采用MoE—混合专家架构
MOE和STR2
上海期智研究院E2E-AD模型SGADS：基于强化和模仿学习的安全通用E2E-AD系统
上交大E2E主动学习ActiveAD案例：解决智能驾驶的数据标注瓶颈，以数据为中心驱动
端到端智能驾驶系统，大多数基于基石大模型开发

1.4 Foundation Models 基石大模型
1.4.1 基石大模型介绍
端到端智能驾驶引入多模态模型的意义
端到端系统的核心— Foundation Models 基石大模型
基石大模型之一LLM大语言模型：在智能驾驶应用举例
基石大模型之二Vision Foundation：在智能驾驶中的应用
基石大模型之二Vision Foundation：Latent diffusion models 框架
基石大模型之二Vision Foundation：Wayve的GAIA-1
基石大模型之二Vision Foundation：DriveDreamer 框架
基石大模型之三多模态基石大模型：MFM
基石大模型之三多模态基石大模型：GPT-4V在智能驾驶领域内的应用
1.4.2 基石大模型之多模态大模型
多模态大模型发展与简介
多模态大模型 VS 单模态大模型（1）
多模态大模型 VS 单模态大模型（2）
多模态大模型技术全景图
多模态信息表示
1.4.3 基石大模型之MLLM模型
多模态大语言模型（MLLM）
多模态大语言模型的架构及核心组件
多模态大语言模型—主流模型
多模态大语言模型在智能驾驶中的应用
Clip模型
LLaVA模型

1.5 VLM模型
多模态大语言模型 VLM在自动驾驶领域的应用
基础模型（Foundation Model) 在自动驾驶中的应用解析
VLM（Vision-Language Model）视觉语言模型应用
VLM（Vision-Language Model）视觉语言模型发展历史
VLM（Vision-Language Model）视觉语言模型架构
视觉语言模型（Vision-Language Model）在端到端智能驾驶中的应用原理
VLM（Vision-Language Model）在端到端智能驾驶中的应用
VLM模型在智能驾驶领域面临的问题

1.6 VLA模型
从VLM→VLA
从VLM +E2E →VLA
VLA架构解析
VLA典型架构
VLA架构解析举例：拆解理想MindVLA 架构（1）
VLA架构解析举例：拆解理想MindVLA 架构（2）
VLA大模型概念
VLA（Vision-Language-Action Model）原理
VLA（Vision-Language-Action Model）模型的分类
VLA（视觉 - 语言 - 动作）技术演化解读
端到端的核心之一大语言模型
VLA技术架构与关键技术
VLA的优势（1）
VLA的优势（2）
VLA的优势（3）
VLA模型部署的挑战—实时响应能力
VLA模型部署实时性以及内存占用挑战
VLA模型部署的挑战—数据（1）
VLA模型部署的挑战—数据（2）
VLA模型部署的挑战—长时序任务的规划能力
VLA大模型演进路线
VLA技术范式代表模型
VLA数据集与基准

1.7 世界模型
世界模型雏形：“心智模型”（1）
世界模型雏形：“心智模型”（2）
世界模型关键定义及应用的发展
世界模型基本架构
世界模型赋能自动驾驶的三大核心价值
世界模型的两大技术流派
生成式世界模型DIAMOND：扩散模型+实时RL适配+长时序稳定
生成式交互世界模型Genie：基于无标注互联网视频无监督学习真实世界物理规律
WorldDreamer 技术原理及路径
隐式世界模型：V-JEPA2技术原理及路径
隐式世界模型：Comma.ai 技术原理及路径
世界模型框架设定及实施难点
基于Transformer和基于扩散模型的视频生成方法
世界模型或为实现端到端的理想方式之一
世界模型—虚拟训练数据的生成
世界模型—特斯拉 World Model
世界模型—英伟达
InfinityDrive：打破世界模型的时间限制
商汤绝影 InfinityDrive 参数表现
商汤绝影 InfinityDrive 流水线
商汤DiT架构及评价视频生成主要指标 FID/FV
世界模型在自动驾驶领域布署的挑战

1.8 端到端大模型技术范式对比
1.8.1 技术范式对比：模块化端到端VS.一段式端到端VS. VLM/VLM+E2E/VLA
三类主流智驾模型对比总结（1）：模块化/一段式端到端/基于基础模型自动驾驶范式
三类主流智驾模型对比总结（2）：模块化/一段式端到端/基于基础模型自动驾驶范式
三类主流智驾模型对比总结（3）：模块化/一段式端到端/基于基础模型自动驾驶范式
广义端到端（GE2E）定义及分类
广义端到端（GE2E）不同端到端自动驾驶范式对比：仅规划E2E VS 多任务E2E
广义端到端（GE2E）不同端到端自动驾驶范式对比：VLM 驱动的“认知型”端到端驾驶
广义端到端（GE2E）不同端到端自动驾驶范式对比： “VLM + 传统 E2E”两大技术范式对比
广义端到端（GE2E）各类端到端自动驾驶模型架构总结
广义端到端（GE2E）各类端到端自动驾驶模型：性能对比
1.8.2 技术范式对比：VLA VS. 世界模型
VLA和World Model世界模型，谁能胜出
VLA与世界模型：性能对决
VLM/VLA/世界模型对比总结

1.9 扩散模型
四种主流的生成模型
扩散模型原理
扩散模型优化智能驾驶轨迹生成核心环节
扩散模型优化智能驾驶轨迹生成
扩散模型在智能驾驶领域的应用
扩散模型实际应用案例

02 端到端智能驾驶的技术路线和发展趋势
2.1 端到端智能驾驶的技术趋势
智能驾驶端到端大模型智能驾驶演进路线总结
趋势一：2026 年智驾大模型演进的核心焦点，将集中于多技术路线的博弈竞逐与深度融合
融合模式案例分析1：千里科技自动驾驶系统整体架构采用了VLA+E2E 协同闭环
融合模式案例2：具备L3智驾能力的世界行为模型WAM构建了“VLA+世界模型+安全对抗模型”三位一体架构
趋势二：VLA与世界模型融合范式，有望成为“物理AI”落地的主流方式之一
VLA与世界模型的融合案例分析1：小米OneVL模型将VLA、世界模型统一到同一框架
小米OneVL架构拆解
VLA+世界模型融合案例分析2：小鹏推出X-World
VLA与世界模型的融合案例分析3：华为DriveVLA-W0通过世界建模任务预测未来图像
DriveVLA W0 架构拆解
DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law
VLA+世界模型融合案例分析4：博世ExploreVLA 在VLA+RL的基础上，引入世界模型，实现3大突破
博世ExploreVLA模型架构拆解
趋势三：自动驾驶正在进入物理AI阶段
物理 AI的终极形态是连接数字与物理世界，自动驾驶是其最佳落地载体之一
趋势四：智驾 AI 加速向基座大模型演进，行业进入基座模型的通用认知与推理能力的竞争期
案例分析1：元戎启行40B VLA 基座大模型的硬核技术创新分析
案例分析2：卓驭科技2026战略核心打造移动智能基座大模型（1）
案例分析2：卓驭科技2026战略核心打造移动智能基座大模型（2）
案例3：小鹏世界基座模型
趋势五端到端自动驾驶，已经进入“数据闭环比拼精细化运营”的阶段
案例分析：英伟达 MOSAIC
趋势六：通往AGI的路上，机器人和智能驾驶将是两大主流E2E应用场景（1）
趋势六：通往AGI的路上，机器人和智能驾驶将是两大主流E2E应用场景（2）

2.2 端到端智能驾驶市场趋势
Adas tier 1 厂商端到端智驾大模型布局对比分析（1）
Adas tier 1 厂商端到端智驾大模型布局对比分析（2）
Adas tier 1 厂商端到端智驾大模型布局对比分析（3）
Adas tier 1 厂商端到端智驾大模型布局对比分析（4）
Adas tier 1 厂商端到端智驾大模型布局对比分析（5）
其他智能驾驶公司端到端系统厂商方案布局对比分析
主机厂端到端智驾大模型布局对比分析（1）：小米、小鹏、理想、蔚来
主机厂端到端智驾大模型布局对比分析（2）：长安、比亚迪、零跑
主机厂端到端智驾大模型布局对比分析（3）：奇瑞、东风、上汽智己
主机厂端到端智驾大模型布局对比分析（4）：广汽、一汽红旗、吉利

03 端到端智能驾驶供应商研究
3.1 千里科技端到端智驾大模型
千里科技简介
全面进入AI 驱动的智能汽车时代
千里科技：AI+ 车战略
千里科技：顶层战略及商业闭环
千里科技：生态联盟
千里科技对下一代端到端架构的趋势判断（1）
千里科技对下一代端到端架构的趋势判断（2）
千里科技对下一代端到端架构的趋势判断（3）
千里科技端到端大模型架构: E2E2.0+VLA
千里科技E2E端到端架构解析
千里科技世界模型闭环仿真架构
千里科技原生智驾基座模型解析
千里科技三大业务解析（1）
千里科技三大业务解析（2）：Robotaxi 2026-2030布署规划
千里科技智驾方案ASD1.0→ASD4.0及端到端大模型的演进路线
千里智驾量产情况

3.2 地平线端到端智驾大模型
地平线终局战略路线图：2025-2030+
地平线的三次战略进化
地平线2026年最新产品发布（1）
地平线2026年最新产品发布（2）
地平线采用一段式端到端+VLM方案
引入强化学习+世界模型
地平线对一段式端到端大模型的思考
地平线城区辅助驾驶系统HSD
地平线征程6系列芯片
地平线SparseDriveV2解析（1）
地平线SparseDriveV2解析（2）
UMGen：多模态驾驶场景生成统一框架
GoalFlow：目标点驱动，解锁端到端生成式策略新未来
MomAD：动量感知规划的端到端智能驾驶
DiffusionDrive: 迈向生成式多模态端到端智能驾驶
RAD：基于3DGS孪生数字世界的端到端强化学习后训练范式
地平线量产情况
地平线端到端Super Drive高阶智能驾驶及优势
地平线Super Drive 架构及技术原理
地平线智驾系统Senna（大模型＋端到端）
地平线智驾系统Senna核心技术及训练方式
地平线智驾系统Senna核心模块

3.3 卓驭科技智驾大模型
三种智驾模型范式对比：一段式端到端、世界模型及VLA（1）
三种智驾模型范式对比：一段式端到端、世界模型及VLA（2）
卓驭2026推出移动物理AI基座模型：原生多模态基础模型解析
三类VLA 技术范式与卓驭2026推出的原生多模态基础模型对比
卓驭成行智驾端到端大模型演进路线（1）
卓驭成行智驾端到端大模型演进路线（2）
卓驭端到端世界模型架构
卓驭端到端世界模型双阶段训练模型
卓驭生成式智驾GenDrive核心功能
卓驭生成式智驾核心技术
卓驭两段式端到端解析
卓驭一段式可解释端到端解析
卓驭科技端到端量产情况与客户

3.4 英伟达智驾大模型
英伟达自动驾驶业务十年布局
英伟达L2++/L4智驾规划（2026-2030）
英伟达L3与L4落地规划
英伟达DRIVE 全栈辅助驾驶平台：5层架构
NVIDIA Drive Hyperion 10解析（1）：硬件配置
NVIDIA Drive Hyperion 10解析（2）：软件架构
以 Halos OS 为底座，构筑自动驾驶安全与 AI 生态
英伟达DRIVE AV 智驾方案大模型方案：VLA+经典规则算法
E2E+VLM→Drive VLA (1)
E2E+VLM→Drive VLA (2)
英伟达VLA实车布署方案解析（1）
英伟达VLA实车布署方案解析（2）
英伟达推出Alpamayo 1.5 版本
英伟达Drive VLA技术路线：Alpamayo 1.5版本 10B大模型解析
NVIDIA新一代车载计算平台 Drive Thor
世界基础模型开发平台——Cosmos
Cosmos训练范式
NVIDIA为智能驾驶打造的基础平台 NVIDIA DriveOS
NVIDIA Multicast 的核心设计思想
NVIDIA端到端智能驾驶框架Hydra-MDP
NVIDIA 自研搭建模型架构 Model room

3.5 MOMENTA智驾大模型
Momenta公司简介
Momenta R7强化学习世界模型
Momanta R7量产车型
Momenta R6飞轮大模型
Momenta一段式端到端拆解（1）
Momenta算法发展路径
Momenta智驾大模型演进路线图
Momenta 智驾技术演进路径与行业范式变革
Momenta端到端规划架构
Momenta 端到端大模型量产方案

3.6 元戎启行智驾大模型
元戎启行产品布局与战略部署
元戎启行2026推出统一基座模型
基座大模型（40B VLA）的原理与架构技术亮点分析（1）
基座大模型（40B VLA）的原理与架构技术亮点分析（2）
基座大模型（40B VLA）的原理与架构技术亮点分析（3）
基座大模型带来的价值
元戎启行2023-2026端到端智驾大模型演进分析
DeepRoute IO 2.0：VLA 2.0模型详解（1）
DeepRoute IO 2.0：VLA 2.0模型详解（2）
元戎VLA2.0定点量产项目
元戎启行2023采用端到端智驾方案
元戎启行2025与火山引擎达成深度合作
RoadAGI的实施平台—AI Spark
元戎启行端到端VLA模型解析：VLA1.0
元戎启行端到端VLA模型解析：VLA1.0 模型架构
元戎端到端1.0定点量产项目
元戎启行引入分层提示令牌（hint token）
元戎启行端到端训练方案—DINOv2
元戎启行DINOv2在计算机视觉领域的应用价值
元戎启行智能驾驶VQA任务评价数据集
元戎启行评估翻译指标BLEU以及评估图像描述生成任务的自动评价指标CIDEr
元戎启行HoP与华为得分对比

3.7 华为端到端智驾大模型
华为乾崑智驾大模型演进路线图（ADS2.0→ADS5）
华为ADS 5 解析（1）：WEWA 2.0架构解析
WEWA2.0 与WEWA1.0对比分析
华为ADS 5 解析（2）：算力
华为ADS 5解析（3）：4个版本对标及量产车型
盘古大模型分层架构
盘古大模型产品体系（1）
盘古大模型产品体系（2）
华为ADS 4： WEWA 1.0
华为ADS 4 和XMC深度融合及云端仿真验证
ADS 4：高速L3商用解决方案
华为ADS 4 端到端量产情况
华为ADS 2.0（1）端到端理念与感知算法
华为ADS 2.0（2）端到端理念与感知算法
华为ADS 2.0总结
华为ADS 3.0（1）：端到端
华为ADS 3.0（2）：端到端
华为ADS 3.0（3）：ASD3.0 VS. ASD2.0
ADS 3.0端到端方案落地案例(1)：享界S9
ADS 3.0端到端方案落地案例(2)：智界R7
ADS 3.0端到端方案落地案例(3)：问界系列
感知增强型世界感知-行动的Percept-WAM模型架构及原理（1）
感知增强型世界感知-行动的Percept-WAM模型架构及原理（2）
感知增强型世界感知-行动的Percept-WAM模型架构及原理（3）
华为多模态LLM端到端智能驾驶方案
端到端测试—VQA任务
华为DriveGPT4架构
华为端到端训练方案示例解析
华为DriveGPT4的训练分为两个阶段
华为DriveGPT4与GPT4V的对比

3.8 轻舟智航智驾大模型
轻舟智航在智能驾驶领域的产品矩阵：高阶智能驾驶辅助产品“轻舟乘风2.0”三级产品矩阵
轻舟量产基于单征程6M端到端城市NOA方案
轻舟智航实现单J6M芯片落地城市NOA的核心技术分析：可解释一段式端到端
轻舟智航实现极致城市NOA体验的核心技术分析：VLA与世界模型架构解析
轻舟智航智驾大模型演进
轻舟智航智驾方案演进图
轻舟智航数据和模型训练闭环
轻舟智航生态合作伙伴全景表

3.9 Bosch智驾大模型
博世纵横辅助驾驶方案
博世基于端到端模型的城区辅助驾驶方案
博世智驾中国战略布局
基于端到端发展趋势，博世智驾启动新一轮组织架构变革和战略合作
博世规模化量产方案采用一段式端到端
博世纵横辅助驾驶至尊版方案端到端技术路线
博世一段式端到端技术范式拆解
博世端到端量产方案对比
博世 CriticVLA 整体设计思路
博世CriticVLA 架构解析（1）
博世CriticVLA 架构解析（2）
自动驾驶轨迹规划基础模型分类体系
为轨迹规划定制的基础模型：微调
自动驾驶轨迹规划基础模型：为轨迹规划定制的基础模型
自动驾驶轨迹规划基础模型：仅专注于轨迹规划的模型
具备语言交互能力的轨迹规划方法的模型及核心特征
具备动作交互能力的模型的核心特征（训练数据集、训练方式及评估指标）

3.10 文远知行端到端大模型
文远知行简介
文远知行商业模式拆解
文远知行财务情况一览（2023-2025）
文远知行五大产品矩阵
文远知行L4自动驾驶技术多场景应用的商业模式探索
传统自动驾驶架构：基于“感知-预测-规划-控制”的模块化 pipeline存在的两大痛点
一段式端到端待解决的问题
文远知行“E2E+传统Pipeline”双线架构
文远知行E2E模型架构解析
文远知行端到端智驾大模型演进路线
文远知行 Gen8 代 L4 级自动驾驶系统的硬件架构图
HPC 3.0
文远知行自研通用仿真模型：WeRide GENESIS

3.11 小马智行端到端智驾大模型
小马智行简介
小马智行3大业务线及商业模式解析
小马智行Robotaxi业务布局
小马智行Robotaxi商业模式解析
小马智行营收情况一览（2024-2025）
小马智行与文远知行对比分析（市值、营收、业务、Robotaxi业务、智驾模型）
小马智行PonyWorld世界模型2.0解析（1）
小马智行PonyWorld世界模型2.0解析（2）
小马智行PonyWorld世界模型2.0解析（3）
小马智行PonyWorld世界模型2.0解析（4）
小马智行E2E端到端智驾模型
小马智行第一代到第七代Robotaxi产品演进路线
小马智行发布全新一代自动驾驶域控
小马智行生态合作伙伴

3.12 百度端到端
百度DriVerse：多模态轨迹提示和运动对齐实现全新导航世界模型
百度 Apollo简介
百度Robotaxi业务布局
百度Robotaxi商业落地进展（1）：海外市场
百度Robotaxi商业落地进展（2）：国内市场
百度Robotaxi 国内8城落地关键节点（2021-2026）
百度两段式端到端：采取先分段再联合训练的策略
两段式端到端技术架构量产车型：极越07
百度汽车云3.0从三方面赋能端到端系统（1）
百度汽车云3.0从三方面赋能端到端系统（2）

3.13 商汤绝影端到端
商汤绝影公司简介
技术路线分析1：商汤绝影端到端自动驾驶演进图
技术路线分析2：商汤绝影生成式智驾R-UniAD解析（1）
技术路线分析3：商汤绝影生成式智驾R-UniAD解析（2）
商汤绝影R-UniAD架构
R-UniAD实际演示：挖掘复杂场景、4D仿真复现、强化学习、泛化验证
商汤绝影开悟世界模型2.0
商汤绝影量产情况
商汤绝影发布UniAD端到端解决方案
DriveAGI：新一代智能驾驶大模型及其优势
DiFSD：商汤绝影打造的模拟人类驾驶行为的端到端智能驾驶系统
DiFSD：技术解读

3.14 Wayve智驾大模型
Wayve 公司简介
Wayve 智能驾驶 AV 2.0优势
Wayve最新进展：世界模型GAIA-1体系结构
Wayve世界模型GAIA-1—Token
Wayve世界模型GAIA-1—生成效果
Wayve LINGO-2模型

3.15 Waymo智驾大模型
Waymo Foundation Model
“构建驾驶员”（Building the Driver）算法
“验证驾驶员”（Validating the Driver）算法
Waymo发布多模态端到端模型EMMA
EMMA解析：多模态输入
EMMA解析：将驾驶任务定义为视觉问答问题
EMMA解析：引入思维链推理加强可解释性
EMMA模型的局限性
Waymo落地运营情况

3.16 极佳科技端到端
极佳科技公司简介
极佳科技世界模型演进路线
4D生成式世界模型分层搭建方式
世界模型的落地应用（一）
世界模型的落地应用（二）
极佳科技ReconDreamer
极佳科技世界模型DriveDreamer
极佳科技世界模型DriveDreamer 2
极佳科技DriveDreamer4D 的总体结构框

3.17 Nullmax智驾大模型
Nullmax公司简介
MaxDrive辅助驾驶解决方案
新一代智能驾驶技术Nullmax Intelligence
Nullmax端到端技术架构
Nullmax端到端数据平台
HiP-AD：Nullmax基于多粒度规划与可变形注意力的端到端智能驾驶框架
Nullmax量产情况

04 主机厂端到端智能驾驶布局分析
4.1 小米端到端智驾布局
小米简介
小米汽车2026战略规划
2026 年小米汽车新车规划全面解析
2026小米新车产品定位、车型参数对标分析（1）
2026小米新车产品定位、车型参数对标分析（2）
小米汽车智驾组织架构变化
智驾技术路线解析：全路线预研，不押注单一技术
VLA与端到端路线对比
小米智驾算法演进趋势分析：从模块化端到端到端到端架构引入世界模型+强化学习
2026小米推出XLA认知大模型
小米智驾系统及智驾大模型演进路线图
小米HAD增强版解析（1）
小米HAD增强版解析（2）
小米汽车端到端VLA智能驾驶方案Orion
ORION框架解析
小米汽车物理世界建模架构
小米三层分别建模的多段式端到端
小米长视频生成框架—MiLA

4.2 小鹏汽车端到端智驾布局
小鹏智驾端到端大模型演进路线图
小鹏汽车2025~2026自动驾驶产品规划
小鹏2026 L4级智能驾驶布局解析：Robotaxi
小鹏第二代VLA：原生多模态物理世界大模型
L4 能力 = 模型 × 算力 × 数据 × 本体
小鹏第二代VLA解析（1）
小鹏第二代VLA解析（2）
小鹏世界基座模型解析（1）
小鹏世界基座模型解析（2）
小鹏世界基座模型核心技术路径
世界基座模型研发的三个阶段性成果
小鹏云端模型工厂（1）
小鹏云端模型工厂（2）
小鹏端到端系统：架构

4.3 理想汽车端到端智驾布局
理想智驾端到端大模型演进路线图 (1)
理想智驾端到端大模型演进路线图 (2)
理想2026推出新一代统一架构MindVLA-o1（1）
理想2026推出新一代统一架构MindVLA-o1（2）
理想下一代统一架构 MindVLA-o1解析（1）
理想下一代统一架构 MindVLA-o1解析（2）
理想下一代统一架构 MindVLA-o1解析（3）
从E2E+VLM双系统到MindVLA
理想MindVLA模型架构
理想MindVLA关键技术点一（强大的3D物理空间理解能力）
理想MindVLA关键技术点二（与LLM语言大模型结合）
理想MindVLA关键技术点三（Diffusion与RLHF的结合）
理想MindVLA关键技术点四（世界模型及NVAIE加速强化学习）
理想汽车端到端方案（1）：系统1的迭代演进
理想汽车端到端方案（2）：系统1（端到端模型）+ 系统2（VLM)
理想端到端方案(3)：理想智能驾驶技术架构
理想端到端方案(4)：理想DriveVLM大模型：架构
理想端到端方案(5)：理想DriveVLM大模型：渲染效果
理想端到端方案(6)：理想DriveVLM大模型-BEV和文本特征的处理

4.4 特斯拉端到端智驾布局
特斯拉2024 AI发布会解读
特斯拉AD算法发展历程
2023-2024特斯拉端到端进程梳理
特斯拉FSD v13（1）
特斯拉FSD v13（2）
特斯拉FSD v13 后续更新（3）
特斯拉AD算法发展历程：进入重感知轻地图阶段
特斯拉AD算法发展历程：特斯拉影子模式
特斯拉AD算法发展历程：引入Occupancy Network的背景
特斯拉AD算法发展历程：Occupancy Network（1）
特斯拉AD算法发展历程：Occupancy Network （2）
特斯拉AD算法发展历程：Occupancy Network （3）
特斯拉AD算法发展历程：特斯拉多相机融合算法（HydraNet）
特斯拉AD算法发展历程：FSD V12
Tesla：感知决策全栈一体化模型核心要素
特斯拉“端到端”算法
特斯拉世界模型（1）
特斯拉世界模型（2）
特斯拉数据引擎
Dojo超算中心介绍：总概览
Dojo超算中心介绍：基于D1芯片集成的Training Tile
Dojo超算中心介绍：特斯拉算力发展规划

4.5 蔚来汽车端到端智驾布局
蔚来2024-2025智驾组织架构调整
蔚来从模型化到端到端，世界模型是目前主导技术范式
蔚来汽车端到端大模型演进路线
蔚来智驾系统详解
蔚来世界模型NWM解析（1）
蔚来世界模型NWM解析（2）
蔚来世界模型想象重建能力及群体智能
蔚来仿真器 NSim（NIO Simulation）
蔚来世界模型2.0
端到端模型与世界模型对比分析
VLA与世界模型对比分析

4.6 长安汽车端到端智驾布局
北斗天枢2.0—天枢智驾
天枢智驾软件架构
长安集团品牌布局
长安ADAS战略：“北斗天枢”战略
长安端到端系统：BEV+LLM+GoT （1）
长安端到端系统：BEV+LLM+GoT （2）
端到端系统量产车型：长安起源E07

4.7 奇瑞汽车端到端智驾布局
奇瑞产品矩阵及车型分析
奇瑞智驾系统演进历程分析
奇瑞2025推出猎鹰智驾系统4个等级版本
奇瑞智驾端到端大模型进展（1）
奇瑞智驾端到端大模型进展（2）

4.8 广汽端到端智驾布局
广汽智驾大模型策略
广汽智驾系统 ADiGO 的演进图（ADiGO1.0→ADiGO6.0)
广汽2025推出五大智驾平台
广汽L2.9车型及城市NOA软件算法/智驾系统供应商分析
广汽通过“双梯度智驾供应商 + 场景 - 价格精准匹配”的布局，实现城市NOA的“高端卡位 + 大众普惠”
广汽成立华望采用“广汽智造+华为智能”模式发力高端市场，完善品牌矩阵
华望首款车型启镜F03预计2026Q2上市
Momenta 5.0 一段式端到端算法下探至 15 万元级车型并落地城市 NOA 功能
传祺向往S7将搭载MomentaR6强化大模型
广汽星灵智行端到端具身推理模型架构
广汽星灵智行核心技术

4.9 零跑端到端智驾布局
零跑2026发布世界模型
零跑D19采用VLA大模型将实现车位到车位全场景NOA
零跑采用自研智驾系统的模式
零跑汽车Leapmotor Pilot智驾系统演进图（1）
零跑汽车Leapmotor Pilot 智驾系统演进图（2）
零跑汽车端到端高阶智驾
零跑汽车端到端高阶智驾应用场景

4.10 智己端到端智驾布局
上汽智己智驾系统迭代历程
智己与Momenta在智驾方面的合作
智己IM AD端到端2.0智驾大模型
智己IM AD端到端2.0智驾大模型核心技术
智己IM AD端到端2.0智驾大模型应用场景对比

4.11 红旗端到端智驾布局
红旗司南智驾技术架构
红旗端到端大模型核心技术
司南智驾方案
司南智驾方案上车时间车型及未来规划
一汽红旗智驾系统“司南智驾”：与大疆卓驭合作开发（1）
一汽红旗智驾系统“司南智驾”：与大疆卓驭合作开发（1）
一汽红旗智驾系统“司南智驾”系统落地车型及关键配置
2026卓驭端到端4.0系统首发搭载于红旗“司南智驾”
2026一汽红旗“9系”车型将采用华为Hi模式

4.12 东风汽车端到端智驾布局
东风智驾战略规划（2026-2030）
2025推出天元智驾四级产品矩阵：实现从 L2 到 L4/L5 的全覆盖
天元智驾T100/T200/T500首发量产车型智驾配置对比
东风天元智驾技术架构R-AiD解析
东风集团智驾策略：短期自研 + 外采双轨并行，中长期将逐步实施自研替代

4.13 比亚迪端到端智驾布局
盘点比亚迪2026智驾规划
比亚迪智能驾驶领域布局：预研世界模型
比亚迪智能驾驶团队组织架构调整（1）：双智驾部门整合集中资源加速全民智驾
比亚迪智能驾驶团队组织架构调整（2）：成立先进技术研发中心加码AI和大模型投入
比亚迪智驾 BAS 3.0+
比亚迪落地NOA采用的智驾供应商分析

4.14 吉利汽车端到端智驾布局
2026吉利全域AI2.0解析
吉利2025智能汽车全域 AI1.0战略解析
千里科技：吉利集团智能化战略的核心载体
千里科技 L2+ 到 L4 自动驾驶的产品与技术演进路线图
端到端（E2E）智驾模型架构解析
千里浩瀚智驾系统解析：2026加速科技平权推进
吉利千里浩瀚智驾方案 (H1-H9) 在智驾芯片与软件算法供应商上采用差异化分层策略
千里浩瀚H9智驾大模型解析
极氪端到端系统：两段式方案
极氪正式发布端到端Plus：基于多模态大语言模型引入数字先觉网络
极氪端到端系统Plus解析