结合求解器，清华大学校友、MIT中国博士生开发出第一套提高自动驾驶安全性的感知算法

自动驾驶人工智能求解器

2021/09/18 10:47

结合求解器，清华大学校友、MIT中国博士生开发出第一套提高自动驾驶安全性的感知算法

自动驾驶的落地，离不开一个关键条件：安全。近日，清华大学校友、MIT 在读的中国博士生杨珩与团队合作开发了第一套针对自动驾驶汽车的“可认证的感知”算法，有助于提高下一代自动驾驶汽车的行驶安全。

结合求解器，清华大学校友、MIT中国博士生开发出第一套提高自动驾驶安全性的感知算法

链接：https://arxiv.org/pdf/2109.03349.pdf

杨珩，2015年本科毕业于清华大学汽车工程专业，硕士就读于麻省理工学院机械工程专业。硕士期间，他主要研究如何改进超声成像系统，以追踪肝纤维化病症。为了做研究，他需要参加一门关于机器人的课程，叫《Underactuated Robotics》，学习如何通过设计算法来控制机器人。这使他爱上了算法设计的研究方向：

“这门课讲到了数学优化，用抽象的公式来模拟世界上几乎所有事物。我在这门课上学会了一个巧妙的方法来解决我的论文问题。计算在优化设计方面的强大表现让我感到惊讶，我很快确定了这是我接下来要探索的方向。”

2017年，杨珩硕士毕业，转读 MIT 博士，目前在 MIT 的信息与决策系统实验室（LIDS）读博，师从 Luca Carlone，主要研究可认证的感知挑战。目前，他已在自动驾驶的可认证感知算法设计上取得了一系列杰出成果。

什么是可认证的感知算法？

当机器人在感知周围环境时，机器人必须使用算法来估计周围环境，并判断自己所处的位置。目前，用于机器人感知的算法都是被设计于快速感知，几乎无法保证机器人是否正确理解了周围的环境。

这也是自动驾驶算法设计的现有缺陷之一，而杨珩与 LIDS 实验室的部分成员要解决的就是这一问题，希望通过设计“经过验证的”算法来确定评估是否正确。

比方说，机器人在进行感知之前，首先捕捉图像，如自动驾驶汽车会拍下正在靠近自己的汽车快照。然后，这张图像会通过神经网络，在图像中生成有关接近汽车的后视镜、车轮、车门等关键点，绘制出线条，以从 2D 汽车图像上检测到的关键点追踪到3D 汽车模型中标记的 3D 关键点。

在这个过程中，杨珩与团队必须解决一个优化问题，将 3D 模型旋转与平移，以使模型与图像上的关键点对齐。这个 3D 模型有助于机器人了解真实世界的环境。

在接受 MIT News 的采访中，杨珩解释：每一条被追踪的线都必须经过分析，以确保它们进行了准确的匹配。由于有许多关键的点可能会被错误匹配（比如，神经网络可能会将镜子识别为门把手），那么这个问题就是“非凸”的，很难解决。

去年，杨珩与团队找到了解决方法，并获得了 ICRA 2020 的机器人视觉最佳论文奖。

结合求解器，清华大学校友、MIT中国博士生开发出第一套提高自动驾驶安全性的感知算法

论文地址：https://arxiv.org/pdf/1909.08605.pdf

在杨珩的工作中，他将非凸问题转为凸问题，并找到了成功的匹配方法。杨珩称，即使匹配不正确，他们所设计的算法也知道应该如何继续尝试，以找到最佳解决方案，即“全局最小值”。

“如果没有更好的解决方案，（系统）就会给出一个认证。”他指出，这些可认证的算法有巨大的潜在影响，因为像自动驾驶汽车这样的工具必须鲁棒，且值得信赖。“我们的目标是，如果感知系统出现故障，驾驶员可以收到一个警报，快速接管方向盘。”

而杨珩与团队的最新工作采取了通用与可拓展的框架来设计可认证的算法，可以在自动驾驶汽车的行驶过程中进行鲁棒的几何体感知。

这个工作的主要亮点如下：

1）将常见的鲁棒成本（如TLS、最大共识、Geman-McClure、Tukey 双权重等）转化为多项式优化问题（POP）；

2）通过关注 TLS 的成本，他们利用 POP 中的稀疏性，提出了一种比标准 Lasserre 层次结构小得多的稀疏半定规划 (SDP) 松弛，同时保留了准确性；

3）提出 STRIDE（一种将凸 SDP 中的全局下降与非凸 POP 的快速局部搜索相结合的求解器），以前所未有的规模和精度解决了 SDP 松弛问题；

4）评估了所提出的针对六个几何感知问题的框架，包括单次与多次旋转平均、点云和网格配准、绝对姿态估计以及类别级对象姿态和形状估计。

结合求解器，清华大学校友、MIT中国博士生开发出第一套提高自动驾驶安全性的感知算法

他们的实验表明，虽然还达不到实时，但 STRIDE 在中等规模问题上比现有 SDP 求解器快了 100 倍，而且是目前唯一可以高精度求解具有数十万个约束的大规模 SDP 的求解器。

同时，STRIDE 为现有的快速启发式算法（如 RANSAC 或阶段非凸）提供了一种保护措施，即如果启发式估计是最优的，则证明全局最优。

结合求解器，清华大学校友、MIT中国博士生开发出第一套提高自动驾驶安全性的感知算法

使模型适应不同的汽车

在将 2D 图像与 3D 模型进行匹配时，一个假设是 3D 模型要与识别的汽车类型相一致。但是，如果图像中的汽车具有机器人从未见过的形状，会发生什么？结局可能无法预料，所以，杨珩需要估计汽车的位置，并重建 3D 模型的形状。雷锋网

他们找到了一个解决方法：通过对原先识别的车辆进行线性组合，使 3D 模型自动变形、以匹配 2D 图像。比方说，该模型可以从奥迪变成现代，因为它已经记录了汽车的实际构造。识别接近车辆的尺寸是防止碰撞的关键。雷锋网

结合求解器，清华大学校友、MIT中国博士生开发出第一套提高自动驾驶安全性的感知算法

杨珩与团队的这项工作还入围了机器人顶级会议 RSS 的最佳论文奖，杨珩被评为“RSS 先驱”。

结合求解器，清华大学校友、MIT中国博士生开发出第一套提高自动驾驶安全性的感知算法

链接：https://arxiv.org/pdf/2104.08383.pdf

近两年，杨珩及其团队在自动驾驶可认证感知算法的设计上取得了成系列的研究成果，而算法从实验室走到现实世界，必然要面临许多亟待解决的问题。期待杨珩及其团队接下来的工作！雷锋网

参考链接：https://news.mit.edu/2021/heng-yang-self-driving-cars-0916