20分钟教会车道保持功能！Wayve 公司的强化学习算法有点牛

2018/08/04 13:22

20分钟教会车道保持功能！Wayve 公司的强化学习算法有点牛

雷锋网按，AI 学会控制一辆汽车沿着道路标线行驶到底要花多久？答案是 20 分钟。鉴于许多人一辈子都搞不清如何开车走直线，这样的成绩确实令人惊叹。

掌握这项“神技”的是一家名为 Wayve 的英国公司，Wayve 的班底都是来自剑桥大学工程学院的大牛，而他们能完成这项壮举主要靠的是“强化学习”（reinforcement learning）算法。Wayve 公司在博文上表示，只需一位安全司机配合，他们的算法在 15-20 分钟内就能教会一辆车沿着道路标线行驶。

所谓的强化学习又可称之位再励学习、评价学习，是一种重要的机器学习方法，在智能控制机器人及分析预测等领域有许多应用。此前，就有许多公司就展现过这项技术的高效，最好的例子就是 DeepMind 旗下横扫人类棋手的 AlphaGo 和 OpenAI 旗下迅速进步的 Dota 2 AI 机器人（每天训练量相当于人类选手 180 天）。

不可否认的是，让 AI 在复杂的棋类和即时战略类游戏中击败人类已经让人惊掉下巴了，而在短时间内教会一辆车如何自我控制更是让人惊叹。

该团队还在 YouTube 频道上传了车辆的学习过程，他们还强调，这是世界上第一个将“强化学习带上自动驾驶汽车的范例”。

从视频可以看出，最初车辆会像婴儿一样蹒跚学步，在路上蜿蜒前行，但当车辆开始偏离标线，安全驾驶员就会及时介入，将车辆拉回原来的轨道。这样一来，车载算法就知道自己犯了错误，而如果算法长时间不犯错，它们还会拿到奖励的“糖豆”。

据雷锋网知悉：除了强化学习，Wayve 还用到了“深度卷积神经网络”，它能接收单图片输入，然后只靠一块车载 GPU 就能完成数据处理。与其他自动驾驶汽车不同，Wayve 的改装版雷诺小车不需要“海量模型、武装到牙齿的传感器和无穷无尽的数据”，它只需秉承 Wayve 的哲学，使用“一个聪明的训练程序，就能快速和高效的完成学习任务。”

据雷锋网了解，今年 5 月份，它们还参加了 TechCrunch 大会，Wayve联合创始人 Amar Shah 当时就表示：“我们想赋予自动驾驶汽车的是更棒的大脑，而不是更多的硬件。”

“下一步，我们的任务就是扩展这项技术，以应对更多更复杂的驾驶任务，毕竟现在 AI 只不过学会了车道保持这项功能而已。未来，我们希望这套系统能驱动车辆识别交通灯，在环形道路和十字路口应对自如。”Amar Shah 解释道。