杏耀学术｜上海人工智能实验室李弘扬🧔、陈立：端到端自动驾驶算法设计思考

来源🦸🏿‍♀️：发布时间🂠：2023-04-13

3月31日💍，由DISCOVER实验室主办的第二十期杏耀 DISCOVER青年科学家论坛如期举行🚣🏿。本活动有幸邀请到上海人工智能实验室PI/青年科学家李弘扬、青年研究员陈立，为杏耀的老师和同学们做了题为 Recent Advances on End-to-end Autonomous Driving （端到端自动驾驶算法设计思考）的精彩报告。报告介绍的工作UniAD被选为CVPR 2023 Award Candidate✍🏻🖐🏻。本次会议共9000篇投稿，其中仅有12篇论文作为award candidate，共同竞逐CVPR Best Paper。

3A34A

讲者介绍

204D

李弘扬，上海人工智能实验室PI/青年科学家。2019年获香港中文大学博士学位。2019年至2022年，李弘扬博士在商汤科技担任高级研究科学家✢，从事自动驾驶量产应用研究9️⃣。2021年至今，任职于上海人工智能实验室，从事自动驾驶和通用视觉的前沿研究。李弘扬博士目前的研究兴趣集中在感知与认知、端到端自动驾驶、基础模型等方面。李弘扬博士在CVPR😔、ICCV☝🏽、ECCV、NeurIPS🐿、CoRL🤳🏻、ICLR🐱♍️、TPAMI👨🏽‍🏫、TIP等国际顶尖会议/期刊上发表论文三十余篇👩🏼‍💼，多次担任国际顶尖会议领域主席。其工作UniAD入选CVPR 2023 Award Candidate🐞。

3812

陈立🈺，上海人工智能实验室自动驾驶团队青年研究员。研究兴趣主要为计算机视觉🚷🥃，端到端自动驾驶🧖🏻‍♀️，发表多篇相关工作在国际会议如CVPR👩🏽‍🦰、ECCV、NeurIPS、CoRL等👩🏼‍🦳。

报告内容

本次报告中🐾，李弘扬博士和陈立研究员围绕其近期工作Unified Autonomous Driving（UniAD）🦷，分享了对端到端自动驾驶算法设计的一些思考🎅🏼。UniAD首次将目标检测与跟踪👶🏻✋🏿、地图预测、轨迹预测、占据栅格预测🫨、规划整合为同一个基于Transformer的端到端网络框架，在公开数据集nuScenes的所有相关任务上都取得了大幅优于同类型SOTA方法的结果。

研究背景与动机

李弘扬博士首先介绍了进行端到端感知决策一体化研究的背景和动机。

现有的自动驾驶系统可大致分为三类：模块化设计，多任务框架👩🏻‍🦼‍➡️，端到端。

模块化设计方案中🤏🏻，每个独立的模块负责单独的子任务。这种方案具备简化研发团队分工👩‍🦲，便于问题回溯，易于调试迭代等优点。但由于将不同任务解耦，各个模块相对于最终的驾驶规划目标存在信息损失问题🧑‍🏭，且多个模块间优化目标不一致，误差会在模块间传递🪠。

30E61

多任务框架中，不同任务使用同一个特征提取器，具备便于任务拓展、节省计算资源等优点🍔。但不同任务之间存在预测不一致👳🏿、表征冲突的问题⚁🧖🏽‍♂️。

2C730

针对上述问题👨🏽‍🏫，自动驾驶学术界和产业界将研究方向聚焦在了感知决策一体化上👩‍🦲。通过端到端模型统一感知与决策两大体系，可以避免级连误差，提升视觉信息表达🙋🏻‍♀️。同时以认知决策作为自动驾驶终极问题，直接聚焦，优化终端性能体验🔳。尽管具备这些优点，这一研究思路在真实数据闭环验证🏊🏽‍♀️、算法输出可解释性等方面仍存在难点。

42B4F

在具体实现上，现有的端到端模型可分为两类。

一种简单的方式直接以传感器信号作为输入、以轨迹/控制作为输出👨🏻‍🦽。该方式通过基于模仿学习或强化学习的算法设计🥥，能够在仿真中取得较好结果。但缺乏可解释性与实际应用安全性。

27886

另一种方式是对模型进行显式设计🤵🏽‍♂️，将整个架构分为感知-预测-规划模块，使其具有部分中间结果表达。但这种方式面临检测结果在模块间不可微导致无法端到端优化，稠密BEV预测时长有限，过去-未来📢、物体-场景等多维度信息难以高效利用等困难⚰️。

42B4F

基于以上对自动驾驶算法框架优势和难点的分析，李弘扬博士指出🅱️，为了实现可靠且面向最终规划目标的自动驾驶系统⛷，选取哪些必要任务作为内部模块、如何设计有利于规划的算法架构是UniAD的主要研究内容。

UniAD:目标导向的自动驾驶算法设计

接下来🧑🏼‍🎓，陈立研究员介绍了UniAD的算法设计内容🏹。以驾驶规划为最终目标💂🏿‍♂️，UniAD参考业界自动驾驶系统模块设计，李弘扬博士与陈立研究员团队选取了目标检测与跟踪、在线建图、轨迹预测😫、占据栅格预测等四项任务🈵，作为最终实现安全规划的子模块。

20AC3

整体上，UniAD利用多组query实现了全栈Transformer 的端到端模型。其中目标检测与跟踪模块实现了对动态元素的特征提取🌎👷🏽、帧间物体跟踪；在线建图模块实现了对静态物体的特征提取、实例级地图预测；轨迹预测模块实现了动静态元素交互与长时序轨迹预测👈🏼；占据栅格预测模块实现了短时序全场景BEV、实例级预测🤏🏽；最终的规划模块实现基于自车query的轨迹预测和基于占据栅格的碰撞优化。

305BE