我们为你整理了每一个 Lecture 的课程笔记,提炼出每一讲的要点精华,推荐结合课程笔记观看视频内容,学习效果更佳。
原标题 MIT 6.S094: Deep Learning for Self-Driving Cars 2018 Lecture 2 Notes
作者 | Sanyam Bhutani
翻译 | tikboa、原野、叶青、聂璐 整理 | 凡江
本文所有图片均来自课程 PPT。
下文是关于 MIT 6 S094 第 2 讲笔记:自动驾驶深度学习课程(2018),主讲人 Lex Fridman。
自动驾驶汽车
(或无人驾驶汽车或 Robocars)
理想观点:
自动驾驶汽车如何改变我们的生活:
世界各地一百三十万人死于交通事故
仅在美国就有 35000 到 40000 人
机会:设计拯救生命的人工智能系统
自动驾驶有能力避免司机醉酒,疲劳,分心驾驶
消灭私有经济:
增加共享流动性
节约开销
通过减少一个数量级的交通费用,降低成本变得可行
在交通工具上嵌入的软件使我们拥有更个性化的体验
现实观点:
增加失业率:新兴科技总是被人们惧怕的,因为它可能会夺走那些依赖于现有技术的工作。比如:
从事交通运输的人员。
我们必须在哲学、技术、道德层面去考虑智能系统失败的可能性。
大众文化中的 AI(不包括工程师)可能怀有偏见。“黑匣子“的道德准则是什么?它是否是遵循我们的社会准则?
安全性:使用代码的交通工具可能被黑客入侵。
一位工程师的观点:我们想找到一种可行的方法去改变我们的社会,并且改善我们的生活。
怀疑论:
关于什么是困难的和什么是容易的,我们拥有直觉。然而对于深度学习来说,AI 是有瑕疵的。
人类擅长驾驶。我们的直觉是基于数据来源、注释、算法。
当我们作出预测和决定时,我们应该留意是否朝向了理想主义或者现实主义。
两年以上时间就能开发出新车的承诺是值得怀疑的。
一个好的测试应该是在公共道路上大规模的测试车辆,另一个挑战是怎么让他们愿意购买。
Rodney Brocks 提出的(被广泛认可的)预测:
>2032: 美国主要的无人驾驶出租车公司即使在地理禁区也能随意实现接客和下客。
>2045: 美国大部分城市将会批准这些。
技术采用率 VS 年数:
就社会而言,我们乐于接受新技术。
每件事都能迅速改变。
概述:
不同的自动化方法
自动化的等级(SAE J 3016):
对初步讨论,政策制定和媒体帖子进行有用的分类。
对于设计底层系统和整体系统性能来说,没有什么用处。
超越传统水平: 两种类型的AI系统。
起点: 每一个系统在一定程度上都需要人类,需要人们控制车辆并参与到系统中去。
A1: 以人为中心的自动化。定义: 人工智能不完全负责,人类对行为负责。
它可以使用的频率是多少?
它是基于传感器的吗?
交付给司机接管所需要的秒数,目前接近 0 秒。 (唤醒并控制系统所需要的时间)
由车外的人员进行远程接管控制。 人们需要对以人为中心的自动化负责。 如果系统失效,人类需要接管控制。
A2: 人工智能完全负责。 从法律上讲, 汽车设计师对此行为负责。
不涉及远程操控。
不应该有 10 秒原则,这点还不够好。
必须找到安全港。
允许人类接管作为个人选择。 仅当遭遇危险时(比如车祸),人工智能会无视人类操控。
L0: 起点;
L1,L2,L3: A1: 以人为中心;
L4,L5: A2: 完全自动化。
以人为中心的方式: 批评: 当人类拥有系统时,他们会过度信任系统。系统越好,人们会注意得越少。
公众对于自主车辆内部所发生的变化有哪些看法:
工程师的观点:
道路上大量的车辆内部都配备了自动驾驶仪,这就意味着大量的数据。
MIT-AVT 自然驾驶数据集
数据集包括来自三台高清摄像机的影像
GPS、IMU 收集的所有数据
来自 CAN Bus 的数据
源自车内的数据, 包括对话、注意力水平、困倦、情绪状态、身体姿势、活动等等。
5B+框架, 主动解说。
高速公路出行数据:
利用数据来理解人的内在行为。
利用数据来训练理解和控制。
GPS 地图: 红色-手动驾驶里程。 蓝色-自动行驶里程。
33% 的里程为自动驾驶(使用自动驾驶仪)。
简略分类: 区分使用自动驾驶仪和手动驾驶两种情况下人的注意力。 承诺:以人为中心的方式,系统不会被过度信任。
特斯拉自动驾驶(Auto-Pilot):
用途:强烈的(很高比例的速度)
道路类型:大多数为公路
精神参与:在人类不舒服时,进行 8,000 次控制转换。要点:有风险存在。
身体参与:两种情况下注意力保持不变。
要点:
要相信系统,让系统暴露其缺陷。知道什么情况下它有效,什么时候失效。
检查系统的极限:在具有挑战性的环境中。
自动驾驶汽车:机器人的角度
前景广阔:车辆数量巨大。
深刻的:将控制权转移给AI。
私人的:构建一种以人机交互为关键点的关系。
相比于“感知控制”系统,它更像“私人机器人”。
人类和机器的缺陷必须是透明的,并且在两者之间进行沟通。
要点:90% 的情况下启用系统。通过揭示缺陷,我们允许人类在需要的时候采取控制。
传感器
可以处理的原始数据源。
照相机:视觉系统-RGB,红外线
雷达:超声波
激光雷达
超声波:
在近距离工作良好。
便宜。
传感器的尺寸可以很小。
能在恶劣天气、能见度下工作。
范围很小。
分辨率低。
无法检测速度。
雷达:
在具有一定程度自主性的车辆中广泛可用。
电子和超声波变种都很便宜。
在有挑战性的天气下表现良好。
低分辨率。
在当前最为可靠并且使用范围广。
雷达:
具有超声波的所有优点,并且能够检测速度。
低分辨率。
没有纹理和彩色分辨率。
激光雷达:
价格昂贵。
极其精确的信息深度——具有很高的分辨率。
360 度的可见范围。
可靠的数据密度更高。
激光雷达图:蓝色的半径越大,性能越好。
范围还可以,但不是很好。
在黑暗和明亮的照明条件下可以工作。
在恶劣天气下无效。
没有颜色、纹理的信息。
能够检测速度。
传感器尺寸大。
价格昂贵。
不适用于超声波。
照相机:
便宜。
高分辨率:信息密度最高,信息能够被学习和推断。
与其他传感器相比,可获得更多数量级的数据。
人类大体上用类似的方式工作。
缺点:深度估计不好,在极端天气下不可靠。
范围和灵敏度的对比。条件 1:清晰,光线好的条件
照相机提供最大的范围。
超声波有较高的分辨率,但是提供的范围很小。
条件 2: 清晰、昏暗条件 VS 条件 3:大雨或雾或雪:
在两种条件下视觉上都不可靠。
雷达能保持不变。
激光雷达在夜间运转良好,但在恶劣天气条件下无法工作。
照相机:
便宜。
传感器尺寸小。
近距离时性能较差。
范围最大。
在强光下表现良好,对光线条件较为敏感(但也不总是如此)。
在黑暗条件下无法工作。
在能见度较差(恶劣天气)时无法工作。
提供了丰富的文本信息(深度学习所必须的)。
传感器融合:
便宜的传感器:超声波+照相机+雷达。
传感器的未来
照相机和激光雷达对比
激光雷达
融合的便宜传感器:标记的数据一直在增长,深度学习算法在持续改善中。
两者表现一样好。对激光雷达的挑战体现在:花销、范围和尺寸。
便宜传感器融合和激光雷达的对比
公司
Waymo 公司
2017年4月:结束测试,允许第一次公开上路。
2017年11月:独立(笔记:独立的定义存在争议)驾驶了超过400万英里。
2017年12月: 没有司机。
优步
2017年12月:自动驾驶超过了200万英里。
特斯拉
2014 年 9 月:发布了名为 Autopilot 的自动驾驶系统。
2016 年 10 月:从头开始研制第二代 Autopilot 系统。
2018 年 1 月:通过自动驾驶系统 Autopilot 行驶了超过 10 亿英里。
2018 年 1 月:超过 30 万辆汽车装备了自动驾驶系统 Autopilot。
奥迪 A8 系统(将于 2018 年底发布):
承诺达到 Level 3 级别的自动驾驶技术。
Thorsten Leonhardt 将 L3 定义为: 如果遇到交通拥堵,汽车将以低于每小时 60 km 的速度行驶。
发生碰撞后汽车将负有法律责任(在自动驾驶模式下)。
值得注意的地方。
人工智能和机器学习的机遇。
定位和地图构建:
能够在空间中定位自己。
视觉里程计:
使用照相机传感器来理解环境并定位车辆。
SLAM:同时实现定位和地图构建。
在场景中检测特征,时不时地或者逐帧来追踪这些特征,估计照相机的位置和方向。
传统方法:
得到传感器的馈电。
(立体声) 不失真,矫正
(立体声) 计算视差图
特征检测 (例如,SIFT 尺度不变特征转换,FAST)特征追踪 (例如,KLT(Kanade-Lucas-Tomasi)跟踪算法、轨迹预估
使用场景部分(要求外部和内部检测)
对于单声道,需要更多类似于照相机方位和距地高度的信息
深度学习的方法-端到端的方法:
从视频中提取特征,使用卷积神经网络算法。
使用循环神经网络来一直追踪轨迹。
估量姿态。
赞成:借助数据后将变得更好。
赞成:这是“可训练的”
场景理解
借助照相机来理解环境。
将照相机作为主要的传感器来驾驶。
物体检测:传统的 HAAR 算法。
深度学习在该领域占据主导地位,对识别、分类和检测提供更高的准确性。
道路纹理和声音条件:使用递归神经网络算法。赞成:改善车辆的牵引力控制。
运动规划
在理解场景之后,如何从 A 到 B ?
传统:基于控制的优化:决定最优的控制,将问题形式化为可修正的基于优化的方法。
深度强化学习方法。
驾驶状态
检测驾驶的状态。
与司机进行交互。
这些度量标准对于检测睡意,情绪状态,检测一览(确定司机的注意力在哪里)是非常重要的。
”蜥蜴-猫头鹰效应“:蜥蜴(大部分)的眼睛比头动得更多,而猫头鹰(小部分)头比眼睛动得更多。
估计司机的认知负荷。
身体姿态估计。
基于语音交互的司机情绪。
认知负荷:通过眼睛区域来估计,通过眨眼动态来估计一个人的思维深度,级别在 0-2 之间。
重申:自动驾驶未来的两条路
论点: A1 系统在近些年更受欢迎
对于 A2 系统的挑战:
复杂的情况。
声称自己处于“繁忙的区域”。
雷锋网雷锋网