BEV感知理论与实践

全面梳理BEV感知算法及其发展脉络

细致讲解各类代表性算法的代码实现

分享BEV落地的工程实践经验

讲师：傅东旭
讲师：刘兰个川（Patrick Liu）

对课程有疑问？点击视频立即观看课程介绍！

课程服务

至少3个月

作业批改

助教1v1批改

课程有效期

365天

课程时长

0 h

¥0.00

已报满

课程介绍课程大纲学习服务售前疑问

¥0.00

已报满

本课程包括：: 3个月群内答疑，讲师助教及时解答; 课程有效期为1年，建议合理规划学习; 课程配有作业练习，助教一对一批改; 班主任带班，严格督学，告别拖延; 根据学习情况颁发结业证书、优秀学员证书

傅东旭

自动驾驶高级算法专家，历任百度自动驾驶高级研发工程师，纽劢科技L4部门研发负责人，商汤自动驾驶研发副总监。浙江大学控制系硕士，毕业至今拥有6年+的L4自动驾驶研发经验，擅长3D感知、定位建图和多传感器标定等技术。

刘兰个川（Patrick Liu）

前小鹏汽车自动驾驶AI团队负责人，在职期间带领团队从0到1搭建了自动驾驶的BEV感知大模型XNet，也参与了中国最大的自动驾驶智算中心“扶摇”的搭建和维护。在XNet技术的驱动下，小鹏城区辅助驾驶XNGP已经在旗舰SUV G9和旗舰轿跑P7i上落地。本科毕业于北京大学物理学院，博士毕业于密歇根大学安娜堡分校。在加入小鹏之前，曾在硅谷和圣地亚哥的多家科技公司任职。

BEV全称为Bird’s eye view（鸟瞰视角），BEV感知是将摄像头或雷达采集的视觉信息转换至鸟瞰视角进行相关感知的任务。通俗地讲，BEV感知相当于给自动驾驶开启了“上帝视角”，能够让车辆无遮挡的“看清”道路上的实况信息，进而在BEV视角下统一完成感知和预测任务。

在传统的image-view方案中，3D目标检测、障碍物实例分割、车道线分割、轨迹预测等各项感知任务互相分离，使得该方案下的自动驾驶算法需要串联多个子模块，极大增加了算法的开发、维护成本。而BEV感知能够让这些感知任务在一个算法框架下实现。

2023年，BEV感知方案在特斯拉、华为、小鹏等头部自动驾驶企业已量产落地。目前对BEV方案进行系统化梳理的教程依然较少，为了让同学们系统化地学习BEV感知的理论及其实践，深蓝学院联合业界资深工程师打磨推出了这门课程。

课程大纲

第1章：自动驾驶感知模型的演变

本章介绍了自动驾驶从L2到L2+功能需求发生了极大变化，由于传统感知算法的局限性和扩展性不佳，强烈的需求变化驱动了技术发展和感知模型的演变。随后补充讲解了重点模型Transformer的基础知识，以ViT和DETR为例介绍了Transformer的关键组件Self-Attention和Cross-Attention，为后续BEV感知模型视角转换章节的理解打好知识基础。
第2章：特征空间转换方法

BEV为多传感器融合提供了更加合适的特征空间，在多模态多任务结合方面提供了统一的优化目标，减少了规则化设计，可以提升在多场景下的泛化适应能力。其中，最为关键的环节是由2D图像平面到BEV空间平面的空间转换过程。在本章中介绍了当前主流的特征空间转换方法，包括IPM、2D-to-3D的深度估计方法LSS、3D-to-2D基于transformer的Sparse Query和Dense Query方法。
第3章：基于LSS的BEV感知模型原理

本章介绍了LSS系列的感知模型和算法各自的特点，Lift-Splat-Shoot提出了LSS，以预测视锥深度方式将2D图像特征转换到BEV空间视角；CaDDN在深度估计上加入显式监督来完成单目3D检测；BEVDet实现了多相机视角的LSS转换方法；BEVDet4D在BEVDet基础上支持了时序信息融合；M2BEV支持检测和分割多任务联合；BEVFusion在BEV空间上支持了多传感器融合；FastBEV在推理性能上做了进一步优化。
第4章：LSS-based BEV感知模型的工程实现

本章深入讲解了LSS感知模型的工程实现，从数据标注和预处理方面上讲解了数据“流”；在工程代码的框架上介绍了集大成的框架“流”；在模型设计上讲解了关于模型封装与算法流程的模型“流”，重点讲解了image-view encoder与LSS-view transform；最后在张量“流”环节，通过逐层调试查看LSS模型中张量的变化，学习模型的推理过程。

点击此处查看完整目录

项目实践

Project 1 Vision Transformer

DETR是第一个将Transformer成功应用于目标检测的框架。该项目希望同学们实现Vision Transformer模型的结构和关键组件，并在COCO数据集做效果验证。通过该项目，同学们可以加深对自注意力机制、多头注意力等核心概念的理解和实现能力。
Project 2 Inverse Perspective Mapping

逆透视变换IPM (Inverse perspective mapping) 是将相机视角转换成鸟瞰图Bird’s View的一种方法。该项目让学生深入了解视图转换与IPM原理，通过编写透视投影代码，掌握其核心数学原理，并应用IPM将前视图映射到鸟瞰图中，理解其在自动驾驶中的应用。
Project 3 LSS特征空间转换

LSS (Lift-Splat-Shoot) 模型通过显式估计图像的深度信息，对采集到的环视图像进行特征提取，并根据估计出来的离散深度信息，实现图像特征向BEV特征的转换。该项目将实现LSS模型中的核心方法，并通过对输入图像的前向传播，观察特征空间的变换过程。
Project 4 Transformer特征空间转换

BEVFormer模型通过提取环视相机采集到的图像特征，并将提取的环视特征通过模型学习的方式转换到BEV空间，从而实现3D目标检测和地图分割任务。该项目将实现BEVFormer模型中的特征空间转换模块，让同学们掌握Transformer特征空间转换的关键步骤。
Final Project 图像与点云BEV空间特征融合

图像与点云的多模态融合是自动驾驶感知中的常见任务。该项目将实现图像与点云在BEV空间的特征融合，主要包含隐式对齐特征以及SE通道注意力模块，从而实现对图像BEV与点云BEV的加强融合。在nuscenes-mini数据集上完成推理，观察BEV特征的定性效果和推理的定量效果。
实车演示

通过6路相机获取图像，编码到BEV空间下，通过BEV感知算法实现环视3D目标检测与速度预测。同时，将BEV感知算法通过TensorRT推理加速，融入Apollo系统，部署到深蓝学院的自动驾驶实训车辆上（由于需要车辆硬件支持，实车部署的内容，本次课程只展示效果，但会带着大家完成BEV感知基于TensorRT的推理加速）。

学习收获

1掌握BEV感知的发展脉络：2D-to-3D方法以及3D-to-2D方法
2熟悉BEV感知极具代表性的算法原理：BEVDet / BEVPoolv2 / BEVFormer
3学习BEV模型工程实现的数据流、框架流、模型流和张量流
4积累BEV在征程芯片以及NVIDIA芯片上实际部署的经验

课程适合谁学习

希望从事自动驾驶视觉感知研发的在校生
企业中人工智能算法设计与工程开发的工程师

自动驾驶企业中其他方向的研发工程师

基础&设备要求

熟悉Python编程
熟悉常见的深度学习模型，尤其是transformer及其attention机制
具备熟练阅读英文paper的能力
硬性要求： 12G及以上的显存
建议设备： RTX3090及以上的显卡；团队尝试过8个RTX3090显卡从零开始训练BEV模型，训练时长为5天；为了减少训练时间，学院也会同步提供预训练的BEV模型