Roadstar.ai原型车的内部视角
硅谷的9月28日上午,雷锋网编辑坐上了一辆顶着7个激光雷达的林肯MKZ。它远远就看到了路口的红绿灯,车内的大平板上对应的交通灯被一个红框圈出来。MKZ继续往前开了一段,稳稳地停在了路口。一大群学生模样的年轻人从车前的斑马线走过,并不断回头看这台顶着装置的新车。
绿灯亮起,我们乘坐的这辆MKZ起步并按照预定路线右拐。一路上,道路右侧有遛狗的人、踩着滑板的人,还有逆行的自行车。我们的车按照30英里的时速在苹果的后花园Cupertino行驶了一圈,然后回到了出发时的车库门口。
你或许已经猜到了,这是一辆自动驾驶原型车。
这辆车来自Roadstar.ai,这是一家今年5月成立,横跨硅谷与深圳两地的自动驾驶公司。公司三位联合创始人佟显乔(CEO)、衡量(CTO)、周光(首席机器人专家),曾供职于Google、苹果、特斯拉、英伟达、百度等公司,拥有丰富的自动驾驶经验。
佟显乔在今年6月接受雷锋网采访时称,公司的目标直指L4级别自动驾驶,希望成为中国最强战队。在约3个月后,Roadstar.ai的原型车初步成型。上文就是我们近日体验了原型车后的感受,雷锋网也是除公司员工外首批体验原型车的外部人士,并在试乘后与三位联合创始人聊了聊背后的技术细节。
下面是路测视频:
实现自动驾驶有多种技术路径,比如以摄像头为主的方案(特斯拉、AutoX),和以64线激光雷达为主的方案(Waymo、百度)。Roadstar.ai解决自动驾驶技术瓶颈的方案是多传感器深度融合。衡量表示,它不以某一种传感器为主,而是包括了多个激光雷达之间的融合,多个摄像头之间的融合,以及激光雷达与摄像头、毫米波雷达的融合。
Roadstar.ai原型车上的“车顶盒”
雷锋网见到那款MKZ原型车上,顶部有一个被称为“车顶盒”的方形架子,有车身宽,约30多厘米高。架子上布置了7个Velodyne的16线激光雷达,三个摄像头,以及一个毫米波雷达。7个激光雷达在同一平面排列成一个钝角三角形,最外的两个朝车身两边倾斜,中间四个水平放置,顶上的那个最为奇特,是垂直放置躺着旋转的。
周光表示,最终的方案不会是这么大的一个传感器,而是会嵌入车体,比如激光雷达可以安装在车顶的四个角。“我们有一套基于机器学习的实时标定方法,车辆行驶时可以做自动校准,激光雷达可以随便放置。”
多传感器融合倒也并不独特。从目前已经曝光的图片来看,通用与Cruise在两周前宣布推出的全球首款可量产自动驾驶车,就是用的这种方案;硅谷知名的自动驾驶公司Drive.ai,以及一直保持低调的Zoox也是如此。曾供职于苹果自动驾驶部门的佟显乔告诉雷锋网,苹果也是用的多传感器融合方案。
Cruise的第三代可量产自动驾驶车,用了多颗激光雷达分布式布局
Drive.ai的原型车,车顶有6个16线Velodyne激光雷达
苹果的新版原型车(也有猜测为高精地图采集车),顶上有十多个激光雷达
周光称,这是因为各家已经逐渐“摸索出了正确的道路”。
他认为,自动驾驶是一项具有长尾效应的系统工程,由于现实路况过于复杂,以至于99%的精力可能都会用于解决那1%的问题。多传感器融合就是解决这种长尾效应的方法,毕竟异构传感器则可以互相弥补缺点,而如果用同质的传感器,再多也没用,因为缺点是一致的。
他还举了一个例子,就像人脸识别早已很普及了,但往往会受光照和装扮的影响,但苹果Face ID添加了一加了一层深度信息后,就能让身份验证更安全。多传感器融合也是同样的道理。
另一方面,佟显乔表示,采用多传感器融合架构,也是考虑到了自动驾驶车辆的商业化。
对于目前的L4自动驾驶方案而言,激光雷达高昂的价格是一个挑战,甚至在原型车的成本中,它往往要占比超过50%。他表示,64线的Velodyne激光雷达单个价格达8万美元,而使用多传感器融合方案,即使采用6颗16线产品,价格也只是48000美元(每个8000美元),便宜了将近一半。如果采用国产激光雷达,价格甚至可以再降低至少一半。
另一方面,业内普遍认为激光雷达的未来趋势是固态激光雷达,据称明年初即可开始见到单价2000美元的量产型号。而固态产品在2-3年内取代机械旋转式后,单个价格还可以降到500-1000美元。
而固态激光雷达是非旋转式,只能覆盖一定范围的区域,需要多个同步才能实现对周围空间的全面覆盖。所以使用固态激光雷达必须使用多传感器融合方案。
佟显乔还预测,使用多传感器融合方案,并考虑未来固态激光雷达带来的成本下降,2018年自动驾驶系统的成本会在50万左右,2019年还会降到30万以内,在2020年甚至会降到8万以内,让技术更为普及。
虽然多传感器融合的重要性不言而喻,但衡量认为,并非所有人都能做好。
他解释称,这是因为异构传感器的原理不一样,会导致采样速率、对空间的描绘和信息表达方式也不一样,而怎么把不同的信息结合起来变得一致,做到时间空间同步,以及信息表达同步,这非常困难。融合不是传感器的堆叠,“融合不好,反倒会成为干扰”。
Roadstar.ai将自己的融合方案称为“DeepFusion”,这一方面是指用到了深度学习等技术,另一方面是指触达了更深层次的数据信息。
衡量告诉雷锋网,多传感器融合可分为前融合与后融合。后融合是指每个传感器分别生成物体列表,比如用摄像头的数据生成一个检测到的物体列表,同时用激光雷达的点云数据也产生一个列表,然后两者再做融合。他们采用的则是前融合,它会从原始数据的层级把多种传感器的数据融合。
“我们会用图像的RGB数据加上激光雷达与毫米波雷达的深度信息,先融合成新的数据形式,再用算法产生物体列表。”
衡量表示,从信息论的角度看,前融合对信息的利用更为充分,信息也没有丢失。
他此前曾在斯坦福GPS实验室做卫星导航,而导航领域很早就开始做融合,比如将非常可靠但有累积误差的惯性导航,与易受干扰但无累积误差的GPS定位做融合,对于从原始数据的层级做合并已经轻车熟路。
Roadstar.ai今年5月才成立,佟显乔表示,这个时候开始做肯定是要有特别的优势,要走新的路线,达到事半功倍的效果。这条路线就是多传感器融合,而且“大家都逐渐意识到这是一个正确的方向,最终各主要玩家也会趋同,而我们目前是领先的”。
高精度地图
雷锋网体验Roadstar.ai的原型车时发现,其系统对红绿灯的识别极为准确,甚至在人眼还未看到时,就已经识别出来了。衡量解释称,这是因为高精度地图对交通标识的定位很准确,从而降低了识别的难度。
在自动驾驶时代,地图服务的对象不再是人,而是机器,因而也需要重新定义。毫无疑问,高精度地图的第一个关键字是“精”,既精确且不断更新的三维数据。精度上要做到厘米级,因为传感器的精度以及系统对物体辨识和识别都要厘米级,有了足够的精度,地图提供的数据才有用。
衡量告诉雷锋网,高精度地图的第二个关键,是提供感知与定位所需的特征的有效表示,而这也是他们的优势所在。
Roadstar.ai的厘米级精度三维地图,图片来自Roadstar.ai
“传统地图与高精度地图在工具链、生产流程不一样,目的、地图表达方式和数据来源也不一样,Google地图部门与自动驾驶的地图部门就是分开的。前者是一个大规模数据库快速查询的问题,但对后者来说,更关键的是地图怎么生成,怎么有效表示,怎么尽量减少存储空间,这是我们的长处。”
高精度地图分为不同的层级,有与驾驶相关的语义信息层级(如车道线、停止线和十字路口、交通规则等信息),还有更高层次的感知与定位的层级,用来做车辆的感知与定位。
他认为,只有做感知与定位算法的自动驾驶公司,才更懂得怎么做地图特征的提取。因为把原始点云数据存下来不现实,需要压缩并减少数据量。
对于高精度地图,Roadstar.ai还没想成为提供商,但可以向其它公司提供地图生成的算法,帮助加工。
那么在原型车出来之后,接下来应该做什么?
周光表示,数据还是很重要。在发挥现有技术和架构的优势,达到不错的效果后,还是要采数据,扩大规模。他认为,有些场景很难出现,要大量重复路测采集才能覆盖更多的路况。虽然机器学习的效率会提高,对数据量的要求也会降低,但自动驾驶会呈现迭代的过程,需要通过运营来采集数据,最终扩大到更广泛和复杂的场景。
目前,Roadstar.ai已经与华夏幸福合作,明年会在南京溧水区有小范围的自动驾驶车辆运营。另外,据称关于自动驾驶的商业化路径,他们进行了调研,会在接下来的1-2个月内披露具体的商业计划。雷锋网会保持持续关注。
附雷锋网与Roadstar.ai采访节选:
在大公司的经历带来了什么影响?
团队成员之前在苹果、英伟达、Google、特斯拉、百度等任职,是取各家之所长。各家的思路不同,传感器和架构也很不同。苹果用的就是多传感器融合方案;特斯拉是量产中ADAS最好的,它是车厂的思路,会从整车的设计成本出发,限制自动驾驶系统的成本,这决定了它不会有更贵的传感器,而是以摄像头为主;Google算法较为成熟,但过于依赖激光雷达且成本昂贵。我们希望做到比Waymo更好的性能,但成本要低。
为什么会认为多传感器融合方案要优于Google/Waymo?
Google通过近十年的努力,其实已经证明无人驾驶技术是能做成功,是可行的,而且基本已经可以商用了。但它既有先发优势,也有先发劣势。
Google把以激光雷达为主的技术路线走到了极致,在它最开始做自动驾驶的那些年,图像识别技术还不够成熟,只能依靠激光雷达。但这种时代特色与背景,让新方法没有在其技术上体现出来,而这也是新兴公司的机会。Google自研的激光雷达性能非常突出,但这一传感器目前成本降低还有很长一段时间。
L4级别自动驾驶的时间已经到了吗?
其实Google已经证明全自动驾驶技术是可行的,它可以做到平均行驶5000英里才需要人类接管一次,基本已经可以商用。但它比较保守,毕竟是第一个吃螃蟹的。现在从特斯拉Autopilot的情况来看,即使出现了一些事故,大家也没有失去信心。那其实可以胆子大一点,让自动驾驶在一定范围内,在限定条件下先运营起来。
你们的目标是L4,那对一些更为限定的自动驾驶应用会考虑吗?
特殊场景的自动驾驶确实会比乘用车率先实现,因为情况比较简单。我们设计的时候,每个传感器和每个模块都是抽象的,可以任意替换。我们技术的一个子集可以用在简单的场景下,不用重新开发,比如针对矿山车,可以降低配置,或用更简单的算法,和低成本的计算平台。
一开始就做最难的场景,对于简单场景不必重新做。
你们的原型车刚出来不久,数据较少会是一个弱点吗?
深度学习确实是数据驱动的算法,但我们的深度融合算法(DeepFusion)提高了数据的使用效率,使得我们新的端到端模型对数据的依赖降低了一个数量级。现在的架构用几千张图可能就可以实现普通方式十几万张图的效果。我们的模型现在是几千张点云加图像数据融合在一起训练,对数据的利用特别高效。