上海科技大学Laurent Kneip:自动泊车的视觉解决方案

2019/12/05 18:23

新智驾按：10月26日至27日，2019第二届全球智能驾驶峰会暨长三角G60科创走廊智能驾驶产业峰会在苏州高铁新城正式举行。峰会主要聚焦“自动驾驶的量产时代、单车智能和车路协同的共演之路、新型的车内交互探索”三大主题，共同探讨了智能驾驶的未来发展方向。

本次峰会由苏州市相城区人民政府主办，苏州高铁新城管理委员会、雷锋网新智驾承办，江苏省智能网联汽车产业创新联盟、江苏省人工智能学会智能驾驶技术专业委员会、清华大学苏州汽车研究院、中国移动通信集团等单位协办。来自主机厂、国内外一级供应商、自动驾驶解决方案商、自动驾驶核心零部件、出行运营商等智能驾驶上下游企业，车路协同专家学者、代表企业等1500余位业内人士莅临现场。

上海科技大学的Laurent Kneip教授在视觉同步定位与建图方面有多年的研究，此次演讲就是将其研究成果与我们分享，并且为我们阐述如何将视觉定位与建图应用在自动泊车领域。Kneip教授称只需要通过摄像头来形成一个图像序列，并且使用它来逐步定位平台的传感器，然后同时并行地重建环境的3D模型。

新智驾对其演讲进行了不改变愿意的编辑，以下为演讲全文：

基于视觉信息的AVP（自动代客泊车）解决方案，大约两年前我在上海科技大学建立了移动感知实验室，主要是从事视觉SLAM（同步定位与建图）的研究，视觉SLAM与SLAM的不同之处就是——是否使用了摄像头，我们仅使用摄像头来定位装有摄像头的车辆或平台。

因此，我们的想法是，我们只有一个图像序列，一个图像流，然后使用这个图像序列、图像流来逐步定位平台的传感器，然后同时并行地重建环境的3D模型。

所以，很明显，这对于许多新应用来说都是一项非常有用的技术，例如工厂自动化，服务机器人，AR，都可以应用这项技术，其中最为相关的就是——智能驾驶。

因此，在这种情况下，在此处的视频中，我们只看到了一些在室内序列上使用深度摄像机所获得的结果。

但是我们对特殊类型的摄像头系统（即环视摄像头系统）也做了很多研究工作。在计算机视觉中，我们将其称为非重叠多视觉摄像头。

实际上，2011年我们在ETH（苏黎世理工大学）做了一个项目——V Charge.它基本上是与德国大众汽车公司合作的。

那么，我们的想法是通过仅使用消费级传感器来实现AVP，尤其是指汽车中普遍使用的环视摄像头系统。

这是两个摄像头，后视镜，一个在前面，一个在后面，它们是鱼眼镜头。

我本人在2012年进行的早期研究基本上针对的只是非重叠的立体系统。

因此，这是一个非常基本的应用场景，我们只有两个摄像头，一个摄像头朝左，一个摄像头朝右，所以这当然是从自然界得到的灵感。

对于人类而言，这是很正常的，我们的两只眼睛具有相对较大的视场，即视场重叠。但某些动物，例如鸟类的视场重叠就大大变小。

我们当时在CVPR（国际计算机视觉与模式识别会议）上发表了一篇论文，在那篇论文中我们实际上是开发了一个实时系统，该系统能够非常有效地处理来自两个摄像头的输入并重建运动以及环境的3D模型。

我们从中也吸取了一些重要的教训，例如，只使用单个摄像头，我们无法在物体移动时观察到比例尺。

而对于立体摄像头，我们可以观察公制比例尺，对于这些非重叠的立体摄像头，其功能介于这两者之间。

这种变化实际上取决于运动。

在某些情况下，我们确实会观察到比例尺。

在其他一些情况下，我们无法观察到它。因此，我们也从中学到一些重要的经验教训，可用于进一步的应用中。

我们和Motovis（魔视智能）达成了合作。我们为他们开发了一个系统，通过汽车环视摄像头系统，可以在魔视的运行实时的SLAM。

因此，在这段视频中，在地下完全没有GPS信号并且没有使用任何激光雷达的情况下，完成地图的重建后的纯定位。

大约一周后我们将会在澳门发布这一最新研究，同时我们还研究了在挂接式车辆上安装多个摄像机的情况。

我们开发出一种算法，该算法允许我们仅使用卡车后部和前部的摄像头，就可以得到卡车内部连接的结构。这当然是非常有益的。

在该项目中，我是Open GV库的发布者。

多年来，我研究和开发了许多算法，尤其是在多视角摄像头的基本几何问题上这些算法最终都被收进了Open GV里。该项目可从Github上下载。我相信学术界和工业界的许多人正在使用它，尤其是用于自动驾驶领域。01视觉SLAM已经被解决了吗

今天我要讨论一个问题，那就是从一个更广的意义上讲，视觉SLAM的问题已经解决了吗？通常，视觉SLAM被当作图形优化问题来解决，我们使用了在图像中检测到的稀疏特征以及这些特征在后续图像之间或相对于地图的特定对应关系来解决视觉SLAM问题。

如果我们要解决基于视觉SLAM问题，图形优化实际上是一种比较有效的解决方案但是仍然存在一些问题，这可能是我们喜欢使用激光雷达的原因，因为激光雷达是解决这些问题的简单方法。

第一，如果只用视觉来传感，会得到一些毫无意义的图像，这些都是稀疏的特征。我们无法确定这些图像到底是什么。而且，当我们转到功能较差的场景时，图像的性能往往相对较差。最后，也许是最重要的一点，图像的长期稳定性很差。所以如果我们在不同的时间回到同一个地方，所有的东西看起来都不一样，我们在图像中检测到的这些稀疏的特征，是不同的特征，所以定位就不再那么准确了。

这里我想谈论一个是关于运动表象的问题。当我们讨论车辆运动时，确实遵循一些规则。车辆不是任意的自由运动，而是非完整运动。如果我把方向盘放在一个特定的位置，把推力放在某个地方，车辆的旋转和平移实际上是耦合的。所以局部运动可以通过这个模型来解决。

因此，我们今年在CVPR上发表了一篇文章，提出了用多角度单点算法，并且我们在这篇综述中做了进一步的研究。所以我们在视频中看到：这类算法实际上并不能解决SLAM问题。它实际上只是解决了帧到帧的相对位移，并对其进行了4恒等积，我们称之为Geo-adromitory的解决方案，该解决方案运行良好，因为当我们看前面的综合结果时，我们可以得出这样的结论：这里的面积精确关系非常低，我们在将其与运动跟踪系统捕捉到的地面运动轨迹进行比较时，可以看到它工作得非常好，而且我们也在室外应用了这种方法，得到了非常好的结果。02优化SLAM解决方案

我想说的最后一点是另一种方法，就是用高阶到低维的先验模型来改进SLAM。但这次，不是用来表示运动，而是用来表示结构。所以我要简单回顾一下一个简单的视觉障碍解决方案是如何工作的，假设有个摄像头在一个物体周围移动，解决方案将随着功能摄像头的姿势和许多点的变化而参数化。这是一个经典的公式，稠密表示使用了很多点，使用高阶先验模型的想法是将人工智能应用到前端，例如，我们有一个椅子图像，人工智能模块可以告诉我们，这里检测到一个椅子。

所以我们可以做一些事情，比如把图像的某些部分分割出来，然后用3D来注释它们，但是我们做了更进一步的尝试比如使用实际的语义知识，以便支持图像的实际重建。所以，像椅子这样的物体，本质上是无量纲形状参数化的函数。因此，对于现有的SLAM解决方案，这个想法实际上是在可以用来表示环境的元素上添加另一层抽象符号，而不是仅仅使用平面或形状基元的点或线。

我们还做了一项工作，这项工作在Deep SLAM++的评论中也很重要，我们的想法是取代之前显示的优化图，在优化图中，我们只有稀疏的关键点，还包括更高级别的对象级特征，这些构成和塑造了参数。HD映射是单独的问题，作为优化SLAM的一部分就是直接使用参数。所以我们正在优化的，就变成了我想说的东西，具有高阶和低维层次的特征，以及相应的能量源。

当然，现在的问题是如何表示更复杂物体的形状。所以我们一直在做实验。我要给你们展示一些椅子，当然在这几层，可以和汽车一样。我们的想法是再次利用人工智能和自动编码网络对三维形状进行基本的降维。然后我们使用自动编码器的解码部分来重塑生成器，然后将其添加到SLAM中并进行优化。

所以这里我们可以考虑一些室内场景，这很有趣。我们只是在摄像机前挥手。共同点是，在这里看到的所有目标城市和环境的条约模型，都是由神经网络生成的。合理的几何结构通过我们对测量结果的期望差分得到进一步的细化，并且我们将其与传统的SLAM进行了比较。我们可以看到它表现的很好，能够重建环境的一部分。

此地图是由园区周边摄像系统模型直接生成，我们可以在以后的应用中实现车辆定位。

我们将此应用于AVP场景中的一些数据集。这是一个地下停车场的数据集。我们讨论的是来自摄像机系统周围的图像。这里我们用了鱼眼摄像头。人工智能实际上是来自并嵌入系统的模块，这里我们设计了一个非常有效的算法。最后，这是我们的最后一个视频，地图是用来解决AVP问题的，基于高层次特征地图的在线定位和自主驾驶。

这就是我在应用程序中的所有工作。谢谢你的关注。