Forrest Iandola
多传感器融合目前看来已经成了通往自动驾驶的必由之路,更多的传感器数据往往也意味着更高的安全性。但数据融合并不是一件简单的事。
DeepScale是硅谷一家专注于自动驾驶感知技术的公司,其CEO Forrest Iandola在本月接受雷锋网采访时表示,他们能将深度学习同时用于摄像头以外的传感器数据上,如雷达与激光雷达,并在较为廉价的嵌入式设备上提供感知解决方案。
Forrest在加州大学伯克利分校攻读博士学位时,主要研究深度神经网络及其应用,重点关注加速及改进用于计算机视觉的深度学习,目前已发表20多篇论文。2015年他与导师Kurt Keutzer联合创立了DeepScale。
他告诉雷锋网,如果分析现有量产车辆以及自动驾驶原型车对于雷达与摄像头等数据的处理,就会发现摄像头数据上会用到深度学习技术,但雷达数据处理还是用的传统算法,没有深度学习灵活。这也是DeepScale的不同之处。
他们的另一个创新之处体现在多传感器数据的融合算法上。“我们做的是利用原始数据的前融合(Early Fusion),在做目标检测前就进行融合。”
在融合算法上,通常的做法是让摄像头、雷达、激光雷达等传感器数据分别进行物体检测,各生成一个物体列表。如果在雨天激光雷达的效果受到影响,或者在逆光时摄像头难以正常发挥,那各自生成的列表会不一样,在做最终判断时需要再次计算,而部分信息会在确认时被丢弃,这也降低了系统的安全性。如果用原始数据进行融合,信息会更完整。
DeepScale用于测试多传感器融合的方案
Forrest告诉雷锋网,其多传感器融合方案的优势,一是体现在物体检测的准确性上,二是跨传感器的可移植性(Portability)上。“用传统的方法,如果有新的激光雷达,则需要开发新的检测算法,而我们的方法可以用很小的工程开发来完成融合。现在有数十家公司在做传感器,我们不用为每一家的传感器重新开发。”
传感器是实现自动驾驶的瓶颈之一,也因此有一批新兴公司扎根其中,比如Luminar,LeddarTech,速腾,光珀,Cepton,Oculii等。如果对传感器没有特殊要求,无疑可以让分工更明确,加速自动驾驶的落地。
DeepScale的另一个特点,则是自行设计了深度神经网络,这样可以在物体检测上满足精度及计算上的要求。Forrest表示,他们开发的神经网络可以运行在高通的车规级骁龙处理器上。“我们没有用现有的网络,而是自行从新开始设计了深度神经网络。这样可以加入新的功能,比如融合算法,我们还开发了新的数据转换层。”
仍在做研究时,Forrest就与同伴一起发布过自己的神经网络SqueezeNet,这一网络并不能直接用于自动驾驶,但它在让模型尽可能简单的基础上,实现了合理的精度。
在创立DeepScale之前,Forrest曾在UCB的ASPIRE实验室工作,当时他参与了一个美国国防部高级研究计划局DARPA资助了1500万美元的项目。项目的主要任务是将计算机视觉技术置于无人机上,而他们的主要工作就是优化能耗。他表示,“当时在解决问题中,我们要选择合适的硬件,开发最好的library,开发最合适的模型和算法”,而这也是他们现在能用上的经验。
以下为雷锋网与Forrest采访的摘录:
雷锋网:你怎么定义DeepScale和它在自动驾驶行业的位置?
Forrest:我们是一家软件公司,取决于与哪家OEM合作,我们会成为Tier 1或Tier 2供应商。有时与车厂合作,有时也与T1合作,向车厂提供完整的解决方案。两种典型的情况。
我们不是开发自动驾驶整体解决方案,而是只开发感知系统软件,是自动驾驶构成的一部分。
雷锋网:多传感器的前融合在学术研究上是一个相对成熟的领域吗?
Forrest:研究的人相对比较少。深度神经网络是一个有研究很多的领域,在语音识别、目标检测、图像及视频识别、文本分析上都有很多应用。但传感器的融合在DeepScale之外,还主要是人工设计的算法,很少用深度学习,甚至没有用机器学习的方法。总体上虽然已经有了一些研究,但仍有很多开放的问题待解决。
雷锋网:那有待解决的问题还有哪些?
Forrest:除了很多方法没有利用原始数据,这会带来一定的局限外,如何做到传感器的时间同步也是一个重要问题。传感器有不同的采样速率,一个传感器可能是每秒30次的采样,另一个可能是40帆每秒,在如何融合上我们有一些成果了。时间序列神经网络(Time Series Neural Network)帮了很大的忙,RNN(递归神经网络)也很有用,解决了不少问题。
雷锋网:雷达上的原始数据你们用的是频谱(Spectrum)吗?如何做数据融合?
Forrest:第一步是我们与一些雷达公司有合作,他们会为我们提供原始数据。这方面我们有一些进展,用机器学习的方法取得了一些不错的成果。可以透露的是,这有点像语音识别,你可以用原始波形(Wave Forms),或者用FFT(快速傅里叶变换)做一系列的处理,再喂给神经网络,这是一个还没解决的问题。
雷锋网:你们对传感器的配置没有具体要求?
Forrest:我们在配置上很灵活,主要看合作的OEM想达到什么样的效果。在城市路段和高速上所用传感器是不一样。想达到什么样的功能,想要系统多可靠,这决定了用什么样的传感器。
雷锋网:让业界采用你们的方案是否存在哪些阻碍?
Forrest:有不少公司开发出了车载的智能传感器,里面也集成了处理算法,对这些公司来说,我们的技术是颠覆性的(Disruptive)。车厂也不可能同时用这两种方法,所以我们在与汽车行业对用新技术做计算感兴趣的公司合作,希望能将计算中心化。
雷锋网:是因为习惯了传统的方案而不愿意接受新的技术?
Forrest:这对每家公司来说都不一样。如果对精度和系统安全没那么敏感,就不需要。
雷锋网:那是否意味着你们更偏向于L4-5级别的全自动驾驶,而不是L2-3级?因为后者已经有Mobileye这样的公司了?
Forrest:我们L2-5级别的方案都做。L2-3的定义很广泛,现在L2级自动驾驶的功能和它未来有的功能差别很大,比如像紧急制动系统这样的功能就还不完美,还有很多工作要做。车厂也对有更多的安全功能很感兴趣。我们也不是想挑战Mobileye,但在L2-3领域还有很多待解决的问题。
在L4-5级上,会加入更多的传感器,会面向更多的场景,而我们系统的好处是对传感器的改变适应性很好,我们可以支持高端和低端的传感器,且不用做太多的前期开发。
雷锋网:你们开发过程中遇到的主要挑战是什么?
Forrest:取决于自动驾驶车辆要达到什么样的功能,我们的一个目标就是要达到相应的感知精度要求。另外就是要在车规级的硬件和处理器上完成实时计算。DeepScale的一个优势是我们擅长重新思考神经网络的设计,以在更小的处理器上运行。
英伟达等GPU公司在PC和服务器上,以及未来的汽车上都有很好的应用。但也有一些应用场景,就算是英伟达最便宜的芯片也不能满足OEM的需求,但我们能将深度神经网络运行手机和车载硬件上。这也是我们的一个特点,很多公司或者在GPU上做深度学习,或者在其它硬件上做非深度学习的传统的计算机视觉。
雷锋网:你们现在主要支持哪些计算平台?
Forrest:与我们对传感器的要求不多,可以换到新的传感器而不用做过多的开发一样,我们自己的深度神经网络软件框架可以移植到不同的处理器平台上,比如高通、英伟达、TI等,我们未来会运行上所有的平台上。
雷锋网:现在你们深度神经网络的功能有哪些?
Forrest:目前我们主要关注的是物体检测,包括物体的种类、运行路线、距离等信息;还可以分析3D点云,即环境的3D形状是什么,从一个摄像头到多个传感器的数据都可以分析。还有Occupancy,也就是道路上可以行驶的空间。
雷锋网:你如何看待以摄像头或激光雷达为主的自动驾驶方案?
Forrest:我是一个很务实的人,我觉得更多的传感器意味着更安全。各种不同的技术路径都有自己的价值,但重要的是取决于想要做什么和达到什么样的效果。如果只是做Demo,只想在限定区域内运行,可能一个摄像头就够了,如果是要解决安全问题并且要量产,不确定。
雷锋网:你们未来的主要工作是什么?
Forrest:招人,软件开发,获取更多数据,寻求更多合作都是。在一个漂亮的Demo与量产之间,还存在很大的鸿沟,安全性上也需要不断提升。