资讯 人工智能
此为临时链接,仅用于文章预览,将在时失效

无人驾驶端到端的学习(end-to-end learning)靠谱吗?| 曹旭东7000字剖析

作者:宗仁
2016/11/16 18:34

昨天,雷锋网撰文《爆料:曹旭东创立自动驾驶公司Momenta 首次公开项目细节》,正式公布曹旭东及其创业项目Momenta,此项目致力于打造自动驾驶大脑,核心技术是基于深度学习的环境感知、高精度地图、驾驶决策算法。产品包括不同级别的自动驾驶方案,以及衍生出的大数据服务。文章发布后,很多读者对于这个携带深度学习再一次袭来的自动驾驶公司涌现了很多疑问,曹旭东特此从技术角度详细回答了关于Momenta的8个质疑,全文如下。

1 问:为什么选择无人驾驶创业?

曹旭东:个体和环境的交互能激发智能。我选择人工智能及其具体子方向,是基于两个基本的原则:

我相信未来世界的生产力和自由,将来自大数据和智能,这是我选择无人驾驶方向的原因。从去年年初,我开始思考无人驾驶的技术路径和商业路径,虽然现在的理解已经比一年多前成熟很多 ,但仍有一些地方没想明白。人在看不清前路的时候,很容易因为困难而放弃。对于基本原则的信 念,就像是数学上证明了解的存在性,即使发现此路不通,也能保持乐观,不停探索,直至实现目标。

任少卿:让机器感受世界。我之所以创业,有三个原因。

2 问:你们团队最大的优势是什么?

曹旭东: 现阶段来说,最大的优势是深度学习算法能力。长期来看,团队最大的优势是一群有梦想的年轻人。他们有活力,善学习,能创新,有冲劲,带动公司一起快速成长。

我们的深度学习能力,可分为逐层递进的三个层面,分别是单点能力、方案能力和平台能力。

以上三个层面的概括了我们深度学习能力。

3 问:你觉得无人驾驶最大难点是什么? 

无人驾驶,最重要的是安全。高安全性意味着低事故率。一个系统做到很低的事故率,通常要做两件事情,一个是发现问题,一个是解决问题。在刚开始的时候,由于系统的问题非常多,主要的精力在解决问题,但是随着事故率逐渐降低,发现问题变得越来越难。据统计,全球来看,对于人类司机,一亿公里发生致命事故一至三起。对于无人驾驶,我们希望比人更安全,最好致命事故率低一个量级,做到十亿公里一起致命性事故。统计上,要达到足够置信度,需要多次重复实验, 最好一百次以上。这意味着一套比人更加安全的无人驾驶的系统需要测试的总里程达到1000亿公里 。按照一辆车一年10万公里总里程计算。我们需要100万辆车,一整年的时间,收集无人驾驶数据和 测试,才能够保证无人驾驶所需要的安全性。现在Google和百度的无人车成本都在百万人民币量级 ,乘以100万辆车这个巨大的基数,对于任何一家公司而言,都是一个天文数字。

4 问:你是如何看待现在多家厂商宣称已经开展了无人货车、客车、出租的试运营?

最近新闻上看到了很多无人车试运营的报道,比如,Uber和nuTonumy分别在美国和新加坡开展 了无人出租的试运营。个人认为这是市场营销上一个讨巧的说法,让人误以为这些公司已经开始商业落地,在技术和应用上都快人一步。但本质上,大家做的都是无人车路测。谷歌现在有几十辆车左右在美国的多个城市同时进行路测。相比于谷歌,其他各家公司的无人车路测数量和总里程更少 。
 
总的来说,无论是十辆车试运行还是一百辆车试运行,都是在做无人车的demo ,如果没有解决无人车大规模数据收集和测试的关键问题,demo到商业化落地之间的巨大鸿沟就会 一直存在。以谷歌为例,谷歌在2009年就已经开始了高速路测,在2012年的时候已经开始了城市道路测试,积累的总里程最近超过了500万公里,且没有发生一起致命事故。这已经是非常了不起的成 就了。但是谷歌的路测实验并不能说明总里程达到一亿公里的时候不会发生致命事故,不能说明现在谷歌的无人驾驶技术的安全性已经超过了人类驾驶。可能当谷歌的无人车的数量从100辆车扩展到10万辆车,增加了1000倍的时候,一年就会发生几十起甚至几百起致命事故。这些交通事故将会对谷歌无人车业务造成致命性的打击。这正是谷歌无人车从09年开始持续进行多年科技研发,投入了大量成本,却迟迟没有商业化的关键原因。

5 问: 你们的公司是如何解决这个关键问题,达到足够的安全性?

我们回到刚才的分析,无人车大规模数据收集和测试的巨大成本主要来源于两方面。一方面是需要海量的测试车辆,另一方面是高昂的单车成本。针对这两方面的成本,我们有两种互补的解决方案——第一种解决方案是无人驾驶模拟;第二种解决方案是众包数据收集和测试。

无人驾驶模拟可以通过算法生成感知和决策数据,减少数据收集和测试车辆数量,降低研发成本。当然,无人驾驶模拟也存在不足。第一,模拟生成的感知数据和真实的数据存在差异,实际中 ,还是以真实数据为主,生成数据为辅。第二,模拟的规则是人制定的。很多失败的场景恰恰是人思考的盲点,单纯通过模拟并不能发现。总结来说,虽然模拟可以降低数据收集和测试车辆的数量 ,但是我们仍然需要收集真实数据,用大量的车做真实测试。
 
单车成本主要由三部分构成:设备成本,造车成本,运营成本。运营成本就是驾驶员开着车采数据和做测试的成本。 设备成本方面,我们可以发挥算法优势,通过多摄像头等廉价设备实现无人驾驶。摄像头是所有感知设备中信息量最大的,需要人脑水平的强人工智能,才能从间接视频数据中提取出无人驾驶所需 要的直接数据。激光雷达、高精GPS和IMU长期看都有降价空间,我们的技术方案不排除任何感知设  备,价格合理,就会融合进来。

造车成本和运营成本已经优化了上百年,很难降低。一个聪明的想法是让其他人承担这部分成本——这个想法叫做众包,代表性的公司有特斯拉和Mobileye。然而,遗憾的是,他们的众包方案存在两个问题:一,需要造车。特斯拉自己造车,Mobileye则通过合作伙伴造车。二,需要读取和控制车辆驾驶行为。造车周期三到五年,显著慢于算法研发节奏,成为时间瓶颈。如果为了加快迭代,在算法没成熟的情况下强行上车,是拿人的生命做冒险,也显然不可取。特斯拉的几起致命事故就是血的教训。因此,我们设想直接利用现有道路上已有的运营车辆,不需要造车、改车、控制 车,以一种零负担、零危险的方式实现众包测试和数据收集,这是个非常困难的问题,需要非常深厚的算法积淀和原创能力

6 问:什么是高精地图(HD Map)?有什么价值?

高精地图是一个宽泛的概念,需要达到两方面的高精度。

高精度地图是视觉的延伸和增强,之于无人驾驶是必须的。举个例子,多车道弯道行车时,因 为路旁障碍物的遮挡,车载传感器感知不到拐弯之后的道路情况,导致拐弯之后的某一车道上发生 车祸。一旦有了高精地图的车道级定位和实时路况更新,就能提前减速并变换到到非车祸车道,杜 绝事故的发生 。 再举一个例子:通过视觉,我们可以识别当前在第几车道,通过高精度地图定位 ,我们也可以知道当前在第几车道,两种不同方式互相校验,可以达到更高的安全性。总结来说, 高精地图可以使无人车看得更远,看得更准。
 
高精地图对于自动驾驶整体解决方 案研发的价值非常高,这一点却被很多人忽视。分三个方面:决策,测试,V2E。

7 问:视觉高精度地图如何实现?是SLAM技术吗?

不是SLAM也不是SFM,这些方法都不适用。要建真正可用的视觉高精地图,需要从第一原理出发 重新设计整个算法。我们构建高精地图的第一原理是:多张图像存在视差,利用点的对应关系,可 以从2D点恢复出3D点。人眼双目视觉获得深度也是这一原理。从基本原理出发,建立高精地图,需 要创造性地解决三方面的问题:

图像部分。检测识别语义点。传统的SLAM或者SFM算法都基于SIFT、ORB等人工设计的 特征点。在光照、视角发生变化的情况下,无法准确的检测匹配原有特征点。换句话说,光照视角 发生变化后,原来构建的地图就无法使用了。我们的方法是定义道路标线、标牌等地标上的点作为 语义点,通过深度学习和数据驱动的监督训练得到模型,可以准确检测和识别语义点,解决检测不 到、匹配错误的问题。

几何部分。通过众包间接实现海量摄像头测量效果。不同车辆,不同时间,经过同一 地标,即使光照视角不同,我们也可以通过语义点模型把所有车辆拍摄到的同一语义点关联起来, 这相当于间接实现了多摄像头测距的效果。我们知道,视觉测量中,摄像头越多、视差覆盖越全, 测量精度就越高。我们实验验证,随着众包车次的增加,真实3D点位置估计的准确性有量级上的提 升。

GPS部分。给每个语义点精确的GPS坐标。我们有几方面的考虑:(1)让高精地图通用。 GPS坐标是地图的通用语言,给每个语义点赋予GPS坐标,便于他人使用;(2)消除累积误差。单纯使 用几何方法构建局部地图,会有累积误差。结合GPS,可以解决这个问题;(3)消除局部地图歧义性 。当局部地图有重合或者语义点缺失的时候,确定局部地图坐标系很麻烦,但全局GPS坐标系没有这 个问题。

8 问:无人驾驶端到端的学习(end-to-end learning)靠谱吗?

端到端是深度学习中的一个概念,具体指通过深度学 习网络直接学习从输入到输出的映射关系。无人驾驶端到端学习指的是输入视频序列、输出刹车油 门方向盘的操作序列。英伟达和comma.ai都使用端到端深度学习,开发出了无人驾驶的demo系统。

简单来说,对于无人驾驶,端到端不适合开发实用无人驾驶系统,可以做demo,然而大规模商 用却非常困难,其原因如下:

我并不是完全否定端到端学习,而是无人驾驶端到端学习目前存在以上问题,或许在将来可以 得到解决。考验一个算法团队解决实际问题能力的一个重要的 方面就是拆解问题——把一个复杂问题拆解成一系列比较简单的问题,再通过端到端深度学习解决 。通常来说,在检测、识别、分割等简单基础的任务上,端到端学习可以获得更好的效果。复杂问 题的拆解是一门艺术。

长按图片保存图片,分享给好友或朋友圈

无人驾驶端到端的学习(end-to-end learning)靠谱吗?| 曹旭东7000字剖析

扫码查看文章

正在生成分享图...

取消
相关文章