专访 Jeff Dean丨谷歌战神谈增强学习和无监督学习

jeff dean 增强学习无监督学习

作者：老王

2016/11/28 19:15

编者按：近日，谷歌大脑负责人 Jeff Dean 在接受 Fortune 杂志采访时讲述了他对无监督学习和增强学习在人工智能领域应用的看法，雷锋网进行编译。

下一次你在使用谷歌搜索引擎或者使用地图导航的时候，你需要记住他们背后有一个很大的大脑为你提供搜索结果，并确保你不会迷路。

当然，它并不是一个真正的大脑，而是谷歌大脑研究团队。《财富》杂志的 Roger Parloff 写到：

在过去几年中，研究小组已经创造了超过 1000 个深度学习项目将其应用在谷歌现有的产品当中：如 YouTube，谷歌翻译和谷歌相册等。研究人员通过深度学习将大量数据输入到神经网路当中，学习比人类识别速度更快的模式。

无监督学习的不成熟。人类的学习方式可以看作是一种无监督学习，即你只需观察你周围的世界并理解事物的运行方式来丰富你的认知，无监督学习是机器学习非常热门的一个分支，但是它还未达到监督学习能解决任务的那个程度。

没错，人的视觉主要通过无监督学习的方式获得训练。当你还是一个孩子的时候，你在观察世界时，有时你会得到一个监督的信号：比如有人说“这是一只长颈鹿”或者“这是一辆车”的时候，这些少量的监督数据就是你的心理模型对自然的回应，从而完成你对世界的认知。

我们需要更多地结合监督和无监督学习，就我们大多数机器学习的系统工作方式而言，我们还未真正到达那一步。

增强学习背后的逻辑是你未必需要明确你要采取的行动，你只要试探性地做一个你认为不错的行动，然后观察“世界”会有怎样的反应。如同下棋一样，你可根据你对手的行动来进行反应。最终在整个序列行为后得到奖赏信号。

增强学习是在你得到奖赏信号的同时，能将“信任”或“过失”分配到你。它在今天的某些领域非常有效。

当你所执行的任务状态非常宽泛时，此时使用强化学习就会遇到一些挑战。在现实世界中的某个固定时刻操作一个事项涉及到的执行范围可能非常广泛。而在棋盘游戏当中，你走的每一步棋都限定在一定的范围内，而且游戏规也会对你进行限制，这使得其奖赏信号的逻辑非常简单：要么赢，要么输。

如果我的任务是磨一杯咖啡或者其他，整个过程我也许需要采取一系列的动作，而且没有固定的评判标准，那么这个奖赏信号就不是那么清晰。

对，我认为增强学习核心地方就是它需要探索。这种探索在物理环境当中使用有点困难。我们开始尝试把它应用在计算机当中，当机器人采取一系列行动时，它会被限制在一个指定时间中只可以采取有限数量动作的集合。然而在计算机模拟中，它更容易使用大量的计算机资源，并得到一百万个样本。

我们主要通过 DeepMind 和我们的数据中心操作人员之间的合作来将增强学习应用在核心产品中。它们使用强化学习来设置数据中心内的空调旋钮，并实现相同的、安全的冷却操作和操作条件，大幅降低能耗。他们能够发现哪些旋钮的设置可以起到一定的作用，以及当你以不同的方式转动旋钮时，它们会如何反应。

通过增强学习，可以发现这 18 个旋钮的设置，或者更多旋钮并未被操作人员考虑进去。了解这个系统的人会这样说：这真是一个奇怪的系统。但是事实证明，它们运行得确实不错。

数据中心运行良好因为你一次需要执行的不同操作并不多。正像 18 个旋钮，你在那里可以上下旋转它们。这样结果是可以计算出来的。假设你在适当的、可接受的温度范围内工作，你就会得到一个让能耗降低的奖赏操作。从这个角度看，这差不多是一个理想的增强学习问题。

一个更具挑战性的强化学习案例是试图用它来决定我该显示什么样的搜索结果。这有一个更广泛的搜索结果集，我可以展示出不同查询的反应，并且奖赏信号本身就是一种小范围的噪音。就像用户看一个搜索结果，喜欢和不喜欢表现地不是那么明显。

这的确是一个很难解决的问题。由于强化学习可能还不够成熟，以至于在一些极度无约束的环境中，奖赏信号还不是那么明显。

这里面其中一项就是，很多机器学习问题的解决方案和我们对这些解决方案的研究可以在不同的领域中重复使用：我们与地图团队合作了一些研究，他们想要读取出现街头所有店铺和 Logo，从而更好地了解世界，比如确定这里是披萨店还是其他。

为了在图像中找到文本，你可以训练一个机器学习模型，并给它一些样本，比如人们在文本周围画一个圆圈或者方框。实际上，你可以用它来训练模型去检测哪些图像中包含文本。

这是一个普遍适用的功能，地图团队中的不同部门可以重复使用以上模型来完成卫星图像分析任务，比如在美国境内或者世界范围内找到一个屋顶或者估计在屋顶上的太阳能电池板的安装位置。

随后我们发现，相同类型的模型可协助我们解决医疗成像的初步工作。现在你有了医学图像，你可以试图找到那些与临床相关图像的有趣部分。