编辑 | 青暮
自动驾驶汽车如何像人那样感知环境并做出决策?
像人一样感知环境并做出决策,这是人们对自动驾驶汽车的最终想象。经过多年的研究,当前自动驾驶汽车主要存在三大类感知决策控制方法,分别为sequential planning、behavior-aware planning以及end-to-end planning。
sequential planning属于最传统的方法,感知、决策与控制三个部分层次较为清晰;behavior-aware planning的亮点在于引入了人机共驾、车路协同以及车辆对外部动态环境的风险预估;而时下最热门的方法之一,则是end-to-end planning,这种方法基于DL、DRL技术,可以借助大量的数据做训练,获得从图像等感知信息到方向盘转角等车辆控制输入的关系。
牛津布鲁斯大学计算机视觉实验室的研究团队,就基于端到端的方法,发表了第一类面向自动驾驶车辆的道路事件感知数据集(ROAD)。
论文链接:https://arxiv.org/pdf/2102.11585.pdf
ROAD由一个移动智能体(即自动驾驶车辆)、它所执行的动作和相应的场景位置三者组成,可以测试自动驾驶车辆感知并预测道路事件的能力。
作者表示,利用ROAD,通过一种模仿学习设置,人类驾驶者应对道路情况的驾驶行为,可以被用来训练自动驾驶汽车以更深入、更人性化的方式,理解道路环境以及道路其他使用者随时间而变化的行为。
不用关注驾驶员的身体动作了?
为了了解道路上发生的情况,如今的自动驾驶车辆通常配备了一系列不同的传感器(如激光测距仪、雷达、摄像头、GPS )来收集数据,不过ROAD主要考虑的是基于视觉的自动驾驶车辆的行驶环境。
安装在牛津机器人小车上的摄像机,以一种流式、在线的方式拍下了大量视频,研究团队从中精心挑选了22段持续时间相对较长(每段约8分钟)的视频,这些视频由多个道路事件(REs)组成。
根据定义,REs由移动智能体Ag、它执行的动作Ac和发生该动作的位置Loc所组成,即E=(Ag、Ac、Loc)。
经过对这22个视频的内容进行编译,Ag、Ac、Loc构成了编译后有限列表里的所有分类,道路事件则可喻为“管道”,即逐帧边界框检测(frame-wise bounding box detections)的时间序列。
ROAD是一个具有相当规模的数据集,因为122K的视频镜头被标记成了总共560K的检测边界框,依次与1.7M的唯一单独标签相关联,这些标签分别有560K智能体标签、640K动作标签和499K位置标签。
此数据集按照以下原则设计:
多标签基准:每个道路事件由负责的(移动)智能体标签、执行的动作类型标签和描述了动作所在位置的标签组成。
每一个事件都可以在相关时间下被分配到同种标签类型的多个实例(例如,一个RE可以是既移动又左转的实例)。
标注都是从自动驾驶车辆的角度完成的,最终目标是为了让自动驾驶车辆利用此信息做出适当的决策。
元数据旨在包含所有需要全面描述了道路场景的信息,下图给出了该概念的说明。这意味着,即使不看视频,我们也可以根据与这些视频关联的一组标签,还原当时的道路情况(或者可以让自动驾驶汽车根据这些标签,做出一样的决定)
(a)如箭头所示,在换道时,一辆绿色汽车在自动驾驶车辆前面。然后,关联事件将携带以下标签:在车辆车道(位置)、向左移动(动作)。一旦事件完成,位置标签将改为:位于驶出车道。
(b)从6号车道向左转进入4号车道的自动驾驶车辆:因为车流与自动驾驶车辆方向相同,4号车道将成为驶出车道。但是,如果自动驾驶车辆从6号车道右转到4号车道(一个错误的转弯),那么4号车道将随着车辆的进入而成为驶入车道。
简而言之,ROAD的总体思想,是希望通过使用多种标签类型的适当组合,来充分描述道路状况,并允许机器学习算法从这些信息中学习。
局限:没有关注到行人的动作
而为了让科学家能够评估他们在道路事件检测方面所选择的方法的性能,该研究团队还提出了一种强大的基线,该基线将先进的单级目标检测技术与在线管道构建方法相结合,目的是随着时间推移持续探测道路环境,以创建事件管道(event tubes)。
“这种方法的一个优点在于,当自动驾驶车辆学习如何做出决策时,它允许车辆关注更少的相关信息,做到更接近人类的决策方式。”研究团队在论文中表示。
除此之外,该团队还提供了一种新的基于沿时间膨胀RetinaNet的在线道路事件感知增量算法,在50%重叠度下,帧级和视频级事件检测的平均准确率分别为16.8 %和6.1 %。
但一个问题在于,ROAD关注到了各类车辆中驾驶员所执行的行动,却没有考虑到行人、自行车等道路上的其他参与者动作,而对于业界的企业玩家来说,对道路上各种Corner Case的攻克才是更急迫和突显竞争力的。
另外,ROAD数据集仅基于22个视频标注而成,对于自动驾驶的感知算法来说,ROAD的数据量远远不够,且还需要覆盖更多更复杂场景。
雷锋网