小鹏汽车吴新宙：P7视角下的高级别自动驾驶背后的视觉感知技术

2020/07/02 13:16

本文为小鹏汽车自动驾驶副总裁吴新宙来稿，以小鹏P7视角从L2级感知需求、高级别感知需求、自动驾驶研发架构等方面，解读了小鹏汽车自动驾驶背后的视觉感知技术。

以下为正文的内容

我们知道，开始向电力驱动迈进，是如今每一家汽车制造商都必须要做的事情，但只有真正的智能电动汽车才是汽车未来的下一个赛道。

小鹏的自动驾驶是小鹏汽车智能化的最主要标签，也是小鹏的最核心差异化。随着 P7 的推出，我们的主要自动驾驶功能会在下半年通过 OTA 逐步向用户释放。作为小鹏自动驾驶的 “掌门人”，我也想在接下来的几个月中逐步的向大家深度解析一下我们自动驾驶的核心能力，让鹏友们在使用小鹏自动驾驶功能的同时，能够了解一些 under the hood 的核心算法，同时也能对我们未来功能的演进和规划有一个了解和期待。

今天我们先说一下视觉感知，这可能也是对用户最直观、最容易理解的能力；后续我们也会逐步深度解析一下其余部分，包括定位、融合、规划等核心算法模块，我们的硬件能力和规划，以及我们在中后台（大数据）的布局和思考。

小鹏汽车吴新宙：P7视角下的高级别自动驾驶背后的视觉感知技术

高级别自动驾驶（ L2+）的核心是视觉感知能力

视觉感知是自动驾驶的上游模块之一（小鹏自动驾驶算法架构见上图），也是高级别自动驾驶中的最核心能力。每一家注重自动驾驶的量产车企，都会把视觉感知作为一个重中之重来布局，不管是通过自研还是走供应商的方案。从某个意义上讲，视觉方案的优劣，很大程度上会决定该自动驾驶方案的高低优劣之分，以及功能的鲁棒性和稳定度。因为，到了今天，毫米波雷达的能力已趋成熟，功能、性能上的差异化很大程度上是来自于视觉。另外，随着 L2 级自动驾驶逐渐成为整车的标配，许多车厂开始布局甚至部署更高级别的自动驾驶，这对感知，特别是视觉感知，也产生了更高的要求。随着 P7 的上市，小鹏会在今年下半年在 P7（智尊版）上逐步释放更高级的自动驾驶能力，包括在 XPILOT 3.0 中。而这其中，最核心的行车功能是导航辅助驾驶，简称NGP（Navigation Guided Pilot）。

具体来说，对 L2 的核心功能而言， ACC（自适应巡航）需要对前车的稳定检测， LCC（车道居中）则需要对本车车道线的稳定检测；但是对于更高级自动驾驶来说，自主变道是最核心的功能，他带来了比 L2 级自动驾驶高出许多的感知需求。为了方便描述，对于感知需求或者是感知能力，我们可以分为两类：

几何感知：这是指对周围环境或事物体的空间理解能力，或者说是对相关物体准确的定位能力。
语意感知：这是指物体类型，属性，意图的理解。对于高级别自动驾驶而言，首先，360° 的精准感知成了必须—除了对前车的检测和判断，我们需要对周围所有车辆的位置，速度，和加速度进行跟踪，来服务于变道的决定，这是几何感知需求。另外，语意级信息变得更为重要，举一个简单的例子，在某些简版的 LCC 实现中，本车车道线属性都不是特别重要的。但是自主变道的需求把这个变成必须——因为本车需要避免在车道实线时作出变道的决策；另外，不光是本车车道线属性，旁车道车道线属性也需要准确检测，因为我们需要去推测旁车是否会有切入、变道的意图。

另外，对每条车道的驾驶限制属性(是直行车道或是下高速的匝道)，每条车道的限速，该车道与前方其他车道的连接关系，本车都需要⼀个判断。最后，对于旁车，我们不仅要判断他在当前的位置，还需要对他的接下来的行为做一个判断，是为预测。而准确的预测，就需要对该车和它所属环境中的语意信息都需要⼀个了解。我们可从下表把这个需求的不同做⼀个概述。

小鹏汽车吴新宙：P7视角下的高级别自动驾驶背后的视觉感知技术

随着 L2+ 级自动驾驶对语意，几何感知的需求的增长，视觉感知也会起到越来越关键的作用。因为和其他传感器相比，摄像头在获取语意信息上有着得天独厚的优势，因为它有比毫米波雷达高得多的像素密度（2到3个数量级）。同时，通过先进的算法，摄像头也可以精确的测量周围环境中的物体位置，同时通过传感器融合减少误解和漏检，极大的提高感知在几何和语意信息的准确度。这也是为什么我们说视觉感知是⾼级别自动驾驶的核心能力，而视觉感知能力的 360° 覆盖，也是迈入高级别自动驾驶的重要门槛。

接下来我们具体聊⼀下小鹏在视觉感知上的布局。超强的视觉硬件部署小鹏在 P7 上通过 14 个视觉摄像头的布置，完成了对远，中，近三个区域的全方位视觉覆盖。

小鹏汽车吴新宙：P7视角下的高级别自动驾驶背后的视觉感知技术

小鹏 P7 搭载 XPILOT 3.0 系统

小鹏 P7 搭载 XPILOT 3.0 系统这样强大的摄像头组合在国内外都是⾮常领先的，也为我们在泊车和行车上做出差异化打下了基础。

远区域（50m+）: 前视主摄像头和 narrow 摄像头；后视主摄像头；
中区域（3m至100m): 鱼眼摄像头，覆盖360°；
近区域（0m至10m）：环视摄像头，覆盖 360°；主要用于泊车。

超鲁棒的车辆和车道线检测是视觉感知能力的基石无论是对于 L2 或是更高级自动驾驶，视觉感知的基石一定是车辆和车道线的检测能力。在这两个方面，小鹏主要注重三大项的工作：

（1）建立高多样性，涵盖中国尽可能大部分的驾驶场景数据集；过去两年，P7 的感知开发处于完成 0 到 1 状态，或者说是冷启动状态。为此，小鹏建立了自己的数据采集团队，历经两年，在不同的城市、不同场景、采集了大量的 360 度摄像头数据。

（2）建立快速的数据获取和网络训练之间的闭环机制，高效解决感知性能的长尾问题。深度学习网络的性能往往在一定数据训练量之后性能会趋于饱和，比如在准确度达到 90% 以后，往往增加数个百分比的性能需要倍增训练数据量。比如下图显示了车道线检测准确率随着训练数据量的变化，在 90% 以后，使⽤简单增加训练数据量的方法对性能的增长是非常缓慢的。

小鹏汽车吴新宙：P7视角下的高级别自动驾驶背后的视觉感知技术

为了打破这个长尾的迷局，小鹏在数据上的核心战略是定向标注和定向获取。所谓定向标注，也就是从目前网络性能的缺陷或是测试过程中发现的核心视觉感知问题，能够定向地从现有数据库中寻找相关的数据，进行标注和增加到训练数据集。目前小鹏内部的工具链已经有在数天内完成这个闭环的能力（从发现问题到解决问题）。所谓定向获取，是要更好的解决更长尾事件（ 0.1%，0.01%，…)，因为这些数据可能在现有的数据集中也是匮乏的。

作为主机厂，小鹏的核心布局是建立可以从自己的数据采集车和用户车辆中可以在线检测这些长尾事件，并获取这些数据上传至云端，用于算法改进。这两项能力，是我们快速迭代核心感知算法功能和性能的核心能力。在下图显示了这个策略的效果，我们只用了约 12% 的定向数据，取得了最后性能的快速提升。

小鹏汽车吴新宙：P7视角下的高级别自动驾驶背后的视觉感知技术

（3）软硬件结合，高效实现网络在硬件中的实现。14个摄像头，N 个深度学习网络，数十个深度学习输出物，需要在小鹏基于 Xavier 的主控 ECU 上并行处理，同时平衡好网络性能和鲁棒性。在此我们做了大量的工作，包括对网络的大量优化，让网络在不同任务间，设置不同摄像头之间共享资源，同时充分利用 Xavier上强大的运算资源（GPU，DLA等）。小鹏自研的车道线检测就是上述策略很好的例子。为了用户在国内特有的驾驶场景下有更好的体验，我们在过去⼀年内完成了【 X】版⽹络的更新和【 Y】个corner case的增强。目前来看起到了非常好的效果，在内部测试中，我们的 LCC 显示了非常强悍的抗干扰能力。

小鹏汽车吴新宙：P7视角下的高级别自动驾驶背后的视觉感知技术

字符干扰

小鹏汽车吴新宙：P7视角下的高级别自动驾驶背后的视觉感知技术

雨天、遮挡

小鹏汽车吴新宙：P7视角下的高级别自动驾驶背后的视觉感知技术

暴雨、夜间

另外，在解决车辆、车道线的检测准确率之外，我们也在快速地加入和车辆，车道线更多的特性，来帮助感知在几何和语意上的能力。首先，摄像头有非常强的相对几何测量能力——车辆的长宽高比例、车辆在车道线中有多居中，还有旁车和本车相比的相对位姿，这些我们都在通过深度学习网络来实现。而这些信息通过毫米波雷达往往是很难拿到⼀个准确信息的。同时，这些信息对旁车的判断和行为预测都是非常重要的。比如对旁车切入意图的判断，除了看旁车和车道线的相对位置外，准确的车辆航向角也会有很大的帮助。

简短总结⼀下。视觉感知是自动驾驶能力，特别是 L2 以上级别自动驾驶的最核心能力。通过之前两到三年持续不断的努力和投入，小鹏已经建立起了端到端自研自动驾驶全算法堆栈的能力，包括视觉感知，并将随着 P7 的上市而量产。这在国内的主机厂中可以说是独一无二的。目前我们正在高速和城市场景的视觉感知上持续发力，力争在今年下半年和明年给小鹏 P7 的用户在中国驾驶环境下带来不一样的驾驶体验。万分期待 P7 的自动驾驶能力与大家的早日见面，和逐步提升！

原文链接：

https://www.zhihu.com/question/24506695/answer/1312701085

雷锋网雷锋网雷锋网