2023年汽车视觉算法产业研究报告 >> 水清木华研究中心

　　一、什么是BEV?

　　BEV是Bird's Eye View(视觉为中心的鸟瞰图)的简写，也称作“上帝视角”，是一种端到端的，由神经网络将图像信息从图像空间转换到BEV空间的技术。

　　与传统图像空间感知相比，BEV感知可将多个传感器采集的数据，输入到统一的空间进行处理，有效避免误差叠加;同时更易进行时序融合形成4D空间。

视觉算法1_副本.png
来源：百度

　　BEV并非新技术，2016年百度开始在BEV视角下实现点云感知;2021年特斯拉引入BEV后引发了业界的广泛关注。根据传感器输入层、基本任务，以及场景的不同，可给出相应的BEV感知算法。比如，基于纯视觉的BEVFormer算法、基于多模态融合策略的BEVFusion算法。

视觉算法2.png
来源：上海人工智能实验室

　　二、BEV感知算法的三种技术路线

　　从BEV技术落地来看，各家技术架构大致相同，但采取的技术方案有所不同。迄今，大致出现了三种技术路线：

　　1. 纯视觉BEV感知路线，代表企业为特斯拉;

　　2. BEV融合感知路线，代表企业为毫末智行;

　　3. 车路一体BEV感知路线，代表企业为百度。

　　纯视觉BEV感知技术路线：特斯拉是纯视觉技术路线代表企业，2021年率先使用前融合BEV算法，将摄像头感知到的画面直接传到AI算法里，生成鸟瞰视角的3D空间，并在该空间内输出感知结果。包括汽车、行人等动态信息，车道线、交通标识、红绿灯、建筑物等静态信息，以及各元素的坐标位置、方向角、距离、速度、加速度等。

特斯拉利用8个摄像头采集数据通过神经网络输出3D向量空间

来源：特斯拉

　　特斯拉主要利用主干网(Backbone)对各个摄像头进行特征提取(Feature);借助Transformer等技术将多摄像头数据从图像空间转化为BEV空间。Transformer是一种基于Attention机制的深度学习模型，能处理大规模数据级学习任务，精确感知和预测物体深度。

特斯拉在感知网络架构引入BEV三维空间转化层

来源：特斯拉

　　BEV融合感知技术路线：毫末智行是长城汽车旗下自动驾驶公司，2022年推出“重感知，轻地图”的城市NOH方案，核心技术来自MANA(雪湖体系)。

　　在MANA感知架构中，毫末智行采用了 BEV 融合感知(视觉Camera+Lidar)技术。利用自研的Transformer算法，MANA既完成了对纯视觉信息的BEV转化，也完成了Camera和Lidar特征数据的融合，即跨模态raw data的融合。

视觉算法5.png
来源：毫末智行

　　自2021年底推出后，MANA持续演进，通过基于Transformer的感知算法解决了多个道路感知问题，如车道线检测、障碍物检测、可行驶区域分割、红绿灯检测&识别、道路交通标志检测等。

　　2023年1月，MANA进一步升级，引入五大模型，实现车端感知架构的跨代升级，完成了通用障碍物识别、局部路网、行为预测等任务。其中，五大模型包括视觉自监督大模型(实现4D Clip的自动标注)、3D重建大模型(低成本解决数据分布问题)、多模态互监督大模型(通用障碍物的识别)、动态环境大模型(使用重感知技术，降低对高精地图依赖)、人驾自监督认知大模型(驾驶策略更人性、安全、顺畅)。

毫末智行MANA体系感知算法迭代历程

来源：毫末智行

　　车路一体BEV感知技术路线：2023年1月，百度推出车路一体的解决方案UniBEV，是业内首个车路一体的端到端感知解决方案。

　　特点：

　　• 将车端、路端数据全部进行融合，包括车端多相机、多传感器的在线建图、动态障碍物感知，以及路侧视角下的多路口多传感器融合等;

　　• 自研内外参解耦算法，不管车端、路侧的传感器位置如何变化，UniBEV都可将其投影到统一的BEV空间下;

　　• 在统一的BEV空间，UniBEV更易实现多模态、多视角、多时间上的时空特征融合;

　　• 采用大数据+大模型+小型化的技术闭环，在车端路侧的动静态感知任务上更具优势。

视觉算法7.png
来源：百度

　　百度UniBEV方案将应用在百度高阶智驾产品ANP3.0上，计划2023年量产交付。当前，百度已开始在北、上、广、深多地进行ANP3.0泛化测试。

　　百度ANP3.0采用“纯视觉+Lidar”的双冗余方案。研发测试阶段，依靠“BEV环视三维感知”技术，ANP3.0已成为依靠纯视觉实现城市域多场景的智驾⽅案。量产阶段，ANP3.0将引入激光雷达，实现多传感器融合感知，以应对更为复杂的城市场景。

　　三、BEV感知算法助力城市NOA落地

　　随着视觉算法的演进，BEV感知算法成为主机厂和自动驾驶公司发力城市场景的核心技术，如特斯拉、小鹏、长城、极狐汽车、轻舟智航、小马智行等。

　　小鹏汽车：全新一代感知架构XNet 可将摄像头采集的数据，进行多帧时序前融合，输出BEV下的4D动态信息(如车辆速度、运动预测等)和3D静态信息(如车道线位置等)。

视觉算法8.png
来源：小鹏汽车

　　小马智行：2023年1月公布智能驾驶解决方案——小马识途，其关键能力就是自研BEV感知算法，可识别各类型障碍物、车道线及可通行区域等信息，最大限度降低算力需求，仅用导航地图就可实现高速与城市NOA。

视觉算法9.png
来源：小马智行

第一章视觉算法概述
1.1 车载感知系统架构
1.2 车载视觉传感器及解决方案
1.3 车载视觉感知任务
1.4 车外视觉感知系统计算架构及算法
1.4.1 单目方案算法
1.4.2 双目方案算法
1.4.3 环视方案算法
1.5 车内视觉DMS系统架构及算法
1.5.1 视觉DMS系统解决方案
1.5.2 视觉OMS系统解决方案
1.6 BEV感知算法

第二章国外视觉算法企业研究
2.1 Mobileye
2.1.1 公司简介
2.1.2 Mobileye主要技术
2.1.3 Mobileye 视觉解决方案
2.1.4 Mobileye 主要客户
2.2 大陆
2.2.1 公司简介
2.2.2 大陆集团视觉算法布局
2.2.3 大陆集团DMS视觉及算法
2.2.4 大陆集团舱内视觉及算法
2.2.5 大陆集团环视及算法
2.3 博世
2.3.1 公司简介
2.3.2 博世前视摄像头及算法
2.3.3 博世环视摄像头及算法
2.3.4 博世舱内视觉及算法
2.3.5 博世融合感知算法
2.4 StradVision
2.4.1 公司简介
2.4.2 StradVision产品
2.4.3 Stradvision视觉算法
2.4.4 Stradvision 发展动态
2.5 英伟达
2.5.1 公司简介
2.5.2 英伟达自动驾驶核心算法
2.5.3 英伟达自动驾驶汽车软件栈
2.5.4 英伟达DRIVE Perception
2.5.5 英伟达行车场景感知算法
2.5.6 英伟达泊车场景感知算法
2.5.7 英伟达舱内感知算法
2.5.8 合作动态及合作伙伴
2.6 高通
2.6.1 高通Snapdragon Ride 平台
2.6.2 高通Snapdragon Ride Vison系统
2.6.3 高通视觉算法布局
2.6.4 高通合作伙伴
2.7 法雷奥
2.7.1 法雷奥简介
2.7.2 法雷奥核心算法布局
2.7.3 法雷奥Drive4U全自动驾驶方案
2.7.4 法雷奥Remote Park4U全自动泊车系统
2.7.5 法雷奥主要客户
2.8 Seeing Machines
2.8.1 Seeing Machines简介
2.8.2 DMS 产品路线图
2.8.3 DMS技术
2.8.4 DMS算法及解决方案
2.8.5 OMS算法与解决方案
2.8.6 合作动态
2.9 Smart Eye
2.9.1 Smart Eye 简介
2.9.2 Smart Eye DMS 通用开发平台
2.9.3 Smart Eye 眼球追踪技术及系统解决方案
2.9.4 Smart Eye DMS算法
2.9.5 Smart Eye IMS 感知算法
2.9.6 Smart Eye软硬一体化驾驶员监控系统AIS
2.9.7 Smart Eye合作动态
2.10 Cipia
2.10.1 Cipia简介
2.10.2 Cipia DMS解决方案
2.10.3 Cipia舱内解决方案
2.10.4 Cipia车队解决方案
2.10.5 Cipia合作动态
2.11 XPERI
2.11.1 XPERI 简介
2.11.2 XPERI DMS方案
2.11.3 XPERI 新一代DMS方案
2.11.4 XPERI OMS 方案
2.11.5 XPERI 合作伙伴与动态
2.12 特斯拉
2.12.1 特斯拉自动驾驶系统AI 算法概况
2.12.2 特斯拉Occupancy Networks 算法
2.12.3 特斯拉全新车道识别算法
2.12.4 特斯拉HydarNet 算法
2.12.5 特斯拉自动驾驶解决方案

第三章国内视觉算法企业研究
3.1 Momenta
3.1.1 公司简介
3.1.2 Momenta 视觉感知算法
3.1.3 Momenta 量产自动驾驶解决方案
3.1.4 Momenta 完全智驾解决方案
3.1.5 Momenta 自动驾驶动态
3.2 毫末智行
3.2.1 公司简介
3.2.2 毫末智行发展战略
3.2.3 毫末智行核心业务
3.2.4 毫末智行智能数据体系MANA
3.2.5 毫末智行智能数据体系MANA——感知算法
3.2.6 毫末智行智能数据体系MANA——认知算法
3.2.7 毫末智行城市场景解决方案
3.2.8 毫末智行服务模式及落地项目
3.3 纽劢科技
3.3.1 公司简介
3.3.2 纽劢科技核心技术
3.3.3 纽劢MaxView感知技术体系
3.3.4 纽劢多相机BEV方案
3.3.5 纽劢科技MaxFlow数据闭环
3.3.6 纽劢科技自动驾驶解决方案
3.3.7 纽劢科技竞争优势及主要伙伴
3.4 魔视智能
3.4.1 公司简介
3.4.2 主要产品及方案
3.4.3 核心算法团队及技术
3.4.4 魔视智能基于深度学习的视觉感知
3.4.5 魔视智能基于BEV的融合感知算法
3.5 MINIEYE
3.5.1 公司简介
3.5.2 MINIEYE自动驾驶解决方案
3.5.3 舱外感知方案
3.5.4 舱外算法及能力
3.5.5 舱外算法的改进
3.5.6 舱内感知解决方案
3.5.7 舱内感知算法及能力
3.5.8 合作伙伴及动态
3.6 极目智能
3.6.1 公司简介
3.6.2 舱外感知算法
3.6.3 极目智能提升算法精度所做的工作
3.6.4 舱外检测算法应用
3.6.5 舱内驾驶员监测技术
3.6.6 合作动态及未来发展
3.7 中科慧眼
3.7.1 公司简介
3.7.2 中科慧眼核心技术
3.7.3 中科慧眼发展及合作
3.8 商汤科技
3.8.1 公司简介
3.8.2 商汤科技智能汽车业务布局
3.8.3 商汤SenseAuto Pilot 绝影解决方案
3.8.4 商汤SenseAuto Cabin智能车舱解决方案
3.8.5 商汤核心技术
3.9 虹软科技
3.9.1 公司简介
3.9.2 战略布局
3.9.3 车载视觉感知算法
3.9.4 VisDrive汽车视觉解决方案
3.9.5 前装软硬一体车载视觉解决方案 Tahoe
3.9.6 客户及合作伙伴
3.10 百度Apollo
3.10.1 公司简介
3.10.2 百度自动驾驶感知历程
3.10.3 百度感知1.0 阶段主要算法
3.10.4 百度感知2.0 阶段主要算法
3.10.5 百度自动驾驶系统解决方案
3.10.6 百度纯视觉解决方案 Apollo Lite
3.10.7 百度融合感知解决方案Apollo Lite++
3.10.8 百度端到端3D感知开发套件——Paddle3D
3.10.9 百度Apollo主要客户及合作伙伴
3.11 驭势科技
3.11.1 公司简介
3.11.2 U-Drive智能驾驶平台
3.11.3 面向量产的U-Pilot解决方案
3.11.4 驭势科技视觉定位技术
3.11.5 驭势科技研发规划及合作伙伴
3.12 地平线
3.12.1 公司简介
3.12.2 地平线技术及解决方案
3.12.3 地平线芯片迭代历程
3.12.4 地平线AI算法布局
3.12.5 地平线BEV感知方案
3.12.6 地平线AIDI 开发平台
3.12.7 地平线智能驾驶解决方案
3.12.8 地平线智能驾驶解决方案：前视单目
3.12.9 地平线智能驾驶解决方案：行泊一体
3.12.10 地平线智能驾驶解决方案：超级驾驶
3.12.11 地平线合作伙伴
3.13 觉非科技
3.13.1 公司简介
3.13.2 觉非科技产品
3.13.3 觉非科技融合定位量产解决方案
3.13.4 视觉特征融合定位解决方案
3.13.5 觉非科技BEV感知技术发展历程
3.13.6 觉非科技合作生态
3.14 纵目科技
3.14.1 纵目科技简介
3.14.2 纵目科技视觉产品及系统
3.14.3 纵目科技视觉算法
3.14.4 纵目科技主要客户
3.15 中科创达
3.15.1 公司简介
3.15.2 智能视觉产品及核心技术
3.15.3 环视+DMS视觉算法
3.16 鑫洋泉
3.16.1 公司简介
3.16.2 环视算法布局

第四章总结与趋势
4.1 企业总结
4.1.1 国外视觉算法企业一览表
4.1.2 国内视觉算法企业一览表
4.2 发展趋势
4.2.1 趋势一
4.2.2 趋势二
4.2.3 趋势三
4.2.4 趋势四
4.2.5 趋势五
4.2.6 趋势六
4.2.7 趋势七
4.2.8 趋势八