留言
报告导航:研究报告制造业汽车
2025年座舱Agent工程化研究报告
字数:0.0万 页数:248 图表数:0
中文电子版:12000元 中文纸版:9600元 中文(电子+纸)版:12500元
编号:GX 发布日期:2025-11 附件:

        发布的《2025年座舱Agent工程化研究报告》从座舱Agent的现状出发,总结了研发、工程阶段的技术路线与头部主机厂Agent产品特点,并探讨座舱Agent的未来趋势、落地重点等。

        动作执行:完成任务的最后一公里

        从2023年大模型上车开始,座舱AI助手(AI Assistant)在每个阶段都有不同的主线任务。其中2025年座舱AI助手的重点是实现动作执行(Action),从单纯的“出主意”到“帮你办”,完成从“Assistant”向真正“Agent”转变的重要一步。

2023年至今座舱Agent的主要发展重点
座舱Agent工程化1.jpg
来源:佐思汽研

        2025年座舱AI助手的典型场景之一是餐饮点单:

        •2024年,当用户要点咖啡,座舱AI助手只能在地图上找到附近的咖啡店,然后用户手动操作选定店址,AI助手再完成导航,而下单、支付等环节需要用户自己完成,AI助手完全无法协助。

        •2025年,当用户要点咖啡,座舱AI助手已经能够确认用户意向后,自行完成下单、支付等一系列操作,节省用户注意力,优化用户体验。

理想同学通过肯德基“车速取”功能点单的全流程
001.png
002.png
003.png
004.png
005.png
来源:理想汽车

        以理想同学通过肯德基“车速取”功能点单为例,整个流程分为5步:

理想同学与肯德基“车速取”功能的实现步骤
座舱Agent工程化2.png
整理:佐思汽研

        整个过程涉及到长期记忆库、工具调用、多智能体协作等方向的技术:

        01 案例一:工具调用

        •2024年初,OPEN AI的Function Calling是座舱Agent在工具调用时采用的主流技术,聚焦单模型与单工具的直接交互;

        •2024下半年,Anthropic提出的MCP(Model Context Protocol)在Function Calling基础上解决 “多组件协同” 的问题,完善了Function Calling的应用场景和效率。

        •2025年4月,谷歌提出A2A(Agent2Agent)协议,进一步规范不同Agent之间的通信与协作方式。

工具调用的几种路线
座舱Agent工程化3.jpg
整理:佐思汽研

        以理想同学为例,2025年,其Agent落地方案就包括了MCP/A2A技术框架(另外一个框架是CUA):

        •MCP/A2A路线:以车机Agent作为MAS系统的主导者,给第三方Agent下达执行任务,由第三方Agent完成各自的工作流程。

        •CUA(Cockpit Using Agent):操作系统调用多模态大模型理解指令/任务,通过拆解规划,生成最终执行动作,并调用小程序、APP完成指令/任务。如在缴费场景中,理想同学经过一系列理解与规划,调用API对接支付宝车载助手,通过支付宝的生态,使用相关小程序完成支付。

        训练过程中,理想团队在智能体强化阶段的Reward 模块优化中使用了MCP统管工具服务,如使用MCP Hub为训练任务和业务请求提供可调用的工具资源目录。

Reward Server分布式架构中的MCP技术
座舱Agent工程化4.jpg
来源:理想汽车

        在下一个阶段,理想同学计划在加强多模态能力的同时,实现COA(Chain of Action,行动链),即同一个模型不断思考如何去调用外部工具解决问题并行动,进一步提升工具调用、推理与行动等不同模块的协同性。

理想同学技术路线1.0到2.0
座舱Agent工程化5.jpg
来源:理想汽车;整理:佐思汽研

        02 案例二:GUI Agent

        GUI Agent(图形用户界面智能体)是一种特定类型的 LLM Agent,用来处理用户以自然语言提出的指令或请求,通过屏幕截图或 UI 元素树理解 GUI 的当前状态,并执行模拟人机交互的动作,从而跨越各种软件界面。

        GUI Agent通常包括操作环境、Prompt 工程、模型推理、动作执行、记忆等模块组件。

        GUI Agent技术距离完全成熟尚有时日,但已有一部分车企在布局,包括理想、吉利、小米等。

        如在上述点单场景中,理想同学在选择套餐时便采用了GUI Agent 技术,实现了无需用户动手,可自行操作屏幕相关组件 。同时,理想团队也指出,GUI Agent操作的准确率也会影响CUA框架的最终执行效果(因为在付款过程需要扫描屏幕截图,用到了GUI Agent),如果准确率过低,可能会导致登记停车、缴纳停车费等复杂任务难以保证稳定体验。

        以小米为例,推出BTL-UI(Blink-Think-Link)GUI Agent框架,在马尔可夫决策过程框架的基础上,运用GRPO算法。Agent需要在每个时间步骤接收当前的屏幕状态、用户指令和历史交互记录,然后输出结构化的BTL响应,将输入的多模态信息转换为包含视觉注意力区域、推理过程和执行指令的综合输出。

        其实现方式与核心技术包括:

        •仿生交互框架:基于 BTL-UI(Blink-Think-Link)模型,模拟人类视觉注意力分配(眨眼阶段)、逻辑推理(思考阶段)和精确执行(执行阶段),支持复杂多步骤任务(如跨应用调用、多模态交互)

        •自动化数据生成:自动分析屏幕截图,识别出与用户指令最相关的界面元素,并为这些区域生成高质量的注意力标注。

        •BTL奖励机制:细致评估中间的每个认知阶段,检查AI是否正确识别了相关界面元素,是否进行了合理的逻辑推理,以及是否生成了准确的操作指令。

小米BTL-UI(Blink-Think-Link)框架分为“眨眼”、“思考”、“执行”三个阶段
座舱Agent工程化6.jpg
数据来源:小米汽车;整理:佐思汽研

        车企正处于从L2 Reasoners到L3 Agent迈进的阶段,L3又分为四个阶段

        根据OPEN AI对AGI的定义,国内车企正处于从L2 Reasoners到L3 Agent迈进的阶段。在每个不同的阶段,都需要解决不同的问题,表现出相应的特性:

AGI的5个等级
座舱Agent工程化7.jpg
来源:OPEN AI;整理:佐思汽研

        在L3阶段,座舱Agent升级可分为四个阶段:

座舱Agent升级的四个阶段
座舱Agent工程化8.png
座舱Agent工程化9.jpg
整理:佐思汽研

        在现阶段,大部分车企的座舱AI助手已经一定程度完成了“专业服务”,接下来需要实现“情绪共鸣”以及迈过“主动预判”这个坎。

        以提供“情绪共鸣”阶段为例,头部玩家如蔚来的“Nomi”。

        2025年,大部分AI助手的情绪聊天功能主要通过TTS技术模拟的腔调变化、知识库的专用词汇调用(如口语化的语气词)和预设的情绪场景workflow来实现。而相比其他座舱Agent,Nomi还额外具备两个独特优势:

        1. 实体外壳:Nomi通过外壳“Nomi Mate”(截至2025年11月已升级至3.0版本),能够具现化200多个动态表情,在真实世界给予情绪价值。如Nomi在与人进行语音交互时会模拟人与人之间对话时的头部动作,模拟人听到声音时头部转向声音来源的动作,实现了弧形转头轨迹。

Nomi的部分表情
座舱Agent工程化10.jpg
来源:蔚来

        2. 情感设定:

        •在架构上,设定“情感引擎”专属模块,通过“情境智能”、“专属智能”和“情感表达”三个子模块,借助语音、视觉及多模感知技术,实现情景仲裁,得出一系列对于当前情境的理解,实现情绪场景下的自然类人反应。

        •在设定上,Nomi支持被赋予性格,可按照设定,通过类似GPT的流式预测模型进行搜索联想,表现出专属的情景反应,为每个人提供个性化体验(如能够模拟多个MBTI性格,相比之下理想同学MBTI设定就是固定的ENFJ)。

蔚来官方赋予的多个MBTI性格
座舱Agent工程化11.jpg
来源:蔚来

        实现“主动预判”后,座舱Agent从数字 AI 向 物理 AI 突破

        从L3.5+阶段开始,泛化性成为Agent能否灵活应对多场景任务的限制因素之一;为提升不同场景下的泛化性,Agent不仅需要学习策略(在某个状态下该做什么动作),更要通过学习环境动态模型(执行某个动作后世界会如何变化),实现在环境的直接交互中进行预测。

        为避免因高质量数据的短缺造成的限制,解决方案之一是在真实的物理世界环境中进行学习,实现从数字 AI 向 物理 AI 的突破。

        以理想同学的训练为例,理想团队在大量使用互联网数据用于基座模型训练后,发现有数据对模型的能力提升效果已经降低,模型预训练的scaling law边际收益已经下降。

        因此理想团队对下一阶段的训练方式做出改变,聚焦于模型与物理世界的交互,通过强化学习让模型去判断思考过程的对错,在与环境的交互中积累经验与数据。

理想团队对Agent阶段的路线规划
座舱Agent工程化12.jpg
来源:理想汽车;整理:佐思汽研

        World Labs李飞飞团队提出“增强型交互式智能体”(augmented interactive agents),该智能体具备多模态能力与 “跨现实无关”(cross reality-agnostic)集成特性,并内置涌现机制。

        在训练相应智能体的过程中,李飞飞团队引入 “上下文提示”(in-context prompt)或 “隐式奖励函数”(implicit reward function),通过二者捕捉专家行为的关键特征,智能体可通过从专家演示中学习到的用于任务执行的物理世界行为数据进行训练。该数据的收集方式是将物理世界中的专家演示以“状态 – 动作对”(state-action pairs)的形式进行收集。

通过物理世界进行训练的交互机制
座舱Agent工程化13.jpg
来源:李飞飞团队

        2025年,OEM大多选择多智能体的路线来构建座舱AI体系,而多智能体协作恰巧也是提升Agent泛化性的途径之一,通过“领域专精 + 场景联动 + 群体学习”,从多个维度突破现有Agent的泛化性局限。

多智能体协作提升泛化性的三个维度
座舱Agent工程化14.jpg
整理:佐思汽研

        以广汽的Agent“北鼻”为例,通过基于大模型意图识别的多智能体协作,落地复杂场景的意图识别,打破垂类智能体 “无统一交互入口、协同低效” 的痛点,无需用户分别操作多个智能体(如单独调导航、空调),提升协作效率。其原理包括:

        •构建核心智能体:用汽车场景相关预设数据集(如车辆控制、导航等指令记录)微调预训练语言模型,得到意图识别大模型,再基于该模型构建 “意图理解智能体”,同时加入缓存服务提升响应速度。

        •解析用户意图:接收用户指令(如语音、触控指令),由意图理解智能体推理出意图识别结果(含 1-3 个意图及对应置信度,例:“找加油站” 置信度 0.85、“调温度” 置信度 0.9),并缓存指令与结果。

        •调用协同智能体:结合当前场景(如行车状态、天气)做协作决策,调用与意图相关的目标智能体(如导航、控车智能体)协同工作,接收各智能体执行结果。

        •仲裁反馈执行:依据历史置信度评分(智能体过往执行成功率)和当前执行结果仲裁;无历史评分时,用意图识别大模型推理仲裁,最终将结果反馈给执行系统(如车机、语音播报)完成操作。

广汽基于大模型意图识别的多智能体协作,应对复杂指令场景
座舱Agent工程化15.jpg
来源:广汽

相关定义

01 座舱Agent现状与趋势
1.1 座舱Agent概述

座舱Agent产品定义与价值
座舱Agent功能特点与工作流程
Agent参考架构(1)已落地的经典模块设计
Agent参考架构(1)已落地的衍生模块设计
Agent参考架构(1)已落地的衍生模块设计:功能模块要求设计(1)-(2)
Agent参考架构(2)多Agent系统模块设计
Agent参考架构(2)多Agent系统模块设计:组件及其功能
Agent参考架构(2)多Agent系统模块设计:组件及其特点(1)-(8)
Agent参考架构(2)多Agent系统模块设计:架构图
Agent参考架构(3)Agent架构设计:按不同部署层级
座舱Agent、LLM、OS协同机制

1.2 座舱Agent场景概述
座舱Agent应用场景分类(1)
座舱Agent应用场景分类(2)
Agent典型场景(1)出行场景的MAS系统工作流拆解(1)-(5)
Agent典型场景(2)娱乐场景的MAS系统工作流拆解(1)-(4)
Agent典型场景(3)孩童场景的MAS系统工作流拆解(1)-(2)
Agent典型场景(4)情感场景的MAS系统工作流拆解(1)-(2)
Agent典型场景(5)问答场景的MAS系统工作流拆解(1)-(2)
Agent典型场景(6)教育场景的MAS系统工作流拆解(1)-(2)
Agent典型场景(7)驻车场景的MAS系统工作流拆解(1)-(3)
Agent典型场景(8)购物场景的MAS系统工作流拆解
Agent典型场景(9)医疗场景的MAS系统工作流拆解
Agent典型场景(10)办公场景的MAS系统工作流拆解(1)-(2)
Agent场景案例(1)
Agent场景案例(2)
Agent场景案例(3)

1.3 座舱Agent现状
Agent发展历程
主机厂Agent对比
车载 AI Agent的三种开发模式对比分析:优势/劣势
AI Agent的三种开发模式对比分析:费用

1.4 座舱Agent发展趋势
AGI的5个阶段:落地需要解决的主要问题
座舱L3 Agent迭代的四个阶段
Agent趋势(1)
Agent趋势(2)
Agent趋势(3)
Agent趋势(4)
Agent趋势(5)
Agent趋势(5)案例
Agent趋势(6)L3.5+级别Agent的关键目标:高频涌现
Agent趋势(6)L3.5+级别Agent的关键目标:涌现技术基础
Agent趋势(6)L3.5+级别Agent的关键目标:涌现典型场景
具有涌现能力的Agent(1):交互式智能体
具有涌现能力的Agent(2):交互式智能体的“涌现”机制
具有涌现能力的Agent(3):交互式智能体的训练方式
具有涌现能力的Agent(4):
具有涌现能力的Agent(5):加速“高层次涌现”的两个策略
具有涌现能力的Agent(6):

02 主机厂Agent方案研究
2025年座舱AI Agent/AI Assistant概览图
2025年座舱AI Agent/AI Assistant概览表

2.1 理想
理想同学升级成为Agent
理想同学点单场景解析
理想同学缴费场景解析
理想同学Agent架构:两条路线
理想同学的研发启示(1)Agent性能提升的聚焦点:
理想同学的研发启示(2)2.0阶段规划:
理想同学的研发启示(3)交互场景设计与评估方式
理想同学功能模块抽象图
理想同学底层能力:基座模型性能提升
理想同学底层能力:基座模型新增智能体任务训练环节(1)-(4)
理想同学底层能力:基座模型能力提升的不同路径(1)-(6)
理想同学底层能力:基座模型工程能力优化方案(1)-(6)
理想同学底层能力:基座模型工程能力优化方案-训练平台
理想同学底层能力:基座模型工程能力优化方案-推理引擎
理想同学底层能力:从模型到CUA
理想同学底层能力:基座模型Agent能力提升方案
理想同学底层能力:全模态大模型
理想同学底层能力:全模态大模型的应用场景(1)语音知识问答
理想同学底层能力:全模态大模型的应用场景(2)
理想同学底层能力:全模态大模型的应用场景(3)
理想同学底层能力:全模态大模型的模型能力评估(1)-(2)
理想同学底层能力:全模态大模型的工具能力评估(1)-(4)

2.2 蔚来
NomiGPT、NomiAgent部署架构
NomiGPT底层能力架构
NomiGPT功能模块抽象图
NomiGPT功能(1):多模态感知
NomiGPT功能(2):指令分发
NomiGPT功能(3):场景自定义
NomiGPT功能(4):精准对话
NomiGPT:亮点(1)--具身
NomiGPT:亮点(2)--情感交互(1)-(4)
NomiGPT:亮点(3)

2.3 小鹏
小鹏Agent聚焦端侧AI
小鹏座舱AI功能与规划

2.4 吉利
吉利Agent体系的5层架构
吉利Agent OS功能特点(1)-(2)
银河M9功能解析
极氪Agent架构抽象图
极氪座舱Agent场景(1):生活服务
极氪座舱Agent场景(2):

2.5 小米
小米:小爱同学应用场景
小米:小爱同学场景构建:商品助手小米:小爱同学场景构建:问答助手小米:小爱同学架构抽象图小米GUI Agent技术(1)小米GUI Agent技术(2)小米多模态模型基座

2.6 长城
长城Coffee Agent体系(1):应用场景
长城Coffee Agent体系(2):基于AI OS构建
长城Coffee Agent体系:合作动态

2.7 北汽
北汽Agent场景类型北汽智能体平台架构:百模汇创北汽Agent架构抽象图北汽Agent产品的规划思路

2.8 上汽
智己引入阿里Agent体系(1):功能
智己引入阿里Agent体系(2):特点
荣威智能助手底座为豆包模型

2.9 奇瑞
奇瑞Agent首脑体系
阿瑞Agent体系合作与规划

2.10 其他
广汽Agent功能
比亚迪Agent合作动态
长安AI座舱规划与技术(1)-(2)

03 供应商Agent方案研究
3.1 华为
Agent产品体系
华为鸿蒙座舱5 MoLA
Agent底层能力:LLM架构
Agent底层能力:多模态能力
Agent底层能力:思维能力
华为小艺语音技术

3.2 阿里云
产品体系元神AI体系阿里GUI Agent百炼平台对Agent构建的支持

3.3 百度云
产品体系
百度多智能体协作模式

3.4 腾讯云
产品体系
tai6.0座舱体系升级(1)
tai6.0座舱体系升级(2)
腾讯(推理服务方案)
腾讯(生成场景方案)
问答场景方案

3.5 字节&火山引擎
豆包模型体系
火山引擎座舱功能亮点

3.6 商汤
商汤(大模型产品体系)
模型产品布局
座舱AI产品体系
大模型训练设施
商汤科技:合作客户

3.7 智谱
智谱Agent向LLM OS演化
智谱Agent架构抽象图
产品体系
Agent模型
汽车行业大模型底座
技术亮点

3.8 科大讯飞
产品体系
功能与技术亮点

3.9 中科创达
中科创达Agent体系基于滴水OS构建
中科创达Agent动态

3.10 梧桐车联
梧桐车联Agent架构抽象图
梧桐车联:AI体系服务形态
梧桐车联:AI体系应用场景

3.11 其他
光庭科技Agent
联想Agent架构抽象图

04 Agent实用技术分析
4.1 意图识别

意图识别案例(1)
意图识别案例(2)

4.2 知识图谱与搜索
知识图谱案例(1)
知识图谱案例(2)
知识图谱案例(3)

4.3 情绪识别
情绪识别案例(1)
情绪识别案例(2)
情绪识别案例(3)

4.4 推理加速
推理加速案例(1)
推理加速案例(2)

4.5 推荐系统
推荐系统的痛点
专利技术解析:加油推荐
推荐系统案例(1)
推荐系统案例(2)

4.6 工具调用
Function Calling、MCP、A2A的协同与区别
MCP应用案例(1)
MCP应用案例(2)
A2A应用案例

4.7 MAS系统
MAS系统案例(1)
MAS系统案例(2)

4.8 GUI Agent
GUI Agent实现原理
GUI Agent应用现状
GUI Agent功能与特点(1)-(4)

05 Agent落地痛点分析
5.1 痛点1:“端云结合” 部署方式的算力平衡点

5.2 痛点2:多Agent系统的架构设计
多Agent系统的架构设计(1)
多Agent系统的架构设计(2)
多Agent系统的架构设计(3)——基座模型选择
解决方案:多模态任务的最优路径
MAS设计案例(1)
MAS设计案例(2)Anthropic

5.3 痛点3:商业模式设计
主机厂Agent盈利模式:成本类型
主机厂Agent盈利模式:现阶段7种成本回收机制
商业设计案例(1):理想同学(1)-(3)
商业设计案例(2):蔚来Nomi
商业设计案例(3):埃安北鼻
主机厂Agent盈利模式:未来盈利方式
从主机厂的角度看座舱Agent商业模式

5.4 痛点4:场景使用的有效性(1)-(3)

5.5 痛点5:训练偏差

5.6 痛点6:数据隐私
案例(蔚来Agent数据安全框架)

    如果这份报告不能满足您的要求,我们还可以为您定制报告,请留言说明您的详细需求。
2005- 版权所有(c)   北京水清木华研究中心   京ICP备05069564号-6 北京市公安局海淀分局备案号:1101081902
在线客服系统