只训练一次数据就能识别出物体，谷歌全新 AI 算法“单次学习”

作者：老王

2016/11/04 20:23

近日，谷歌 DeepMind 团队发现了一种新的方式对深度学习算法进行调整，新算法可以只通过一个例子就能识别出图像中的物体，该算法被称为“单次学习”。

只训练一次数据就能识别出物体，谷歌全新 AI 算法“单次学习”

一套算法通常需要训练大量数据才能“学会”一件事情，尤其是在计算机视觉和语音识别方向，通常在一个模型内需要喂给成千上万的图像和语音数据才能识别出某个图像/语音，而且图像和语音训练数据的获取本身就较为麻烦。

Facebook M 研发人员曾提到，在人工客户的指引下，计算机虚拟客服仍旧需要重复甚至百万次才能明白用户某一个简单的需求。

针对学习成本和过程复杂这一问题，谷歌的 DeepMind 团队研究员奥里奥尔·温亚尔斯（Oriol Vinyals）在深度学习系统中增加了一个记忆组件，当然，这套系统仍然需要事先分析数百种图片，训练好成型的学习模型，但此后却可以学会通过一张照片识别新的物体。

那么它是如何做到分析一张图片就能完成物体的检测和识别的？其实这套系统本质上是通过分析图片中的独特元素来完成识别任务。这种算法只需要看一个例子，便可达到近似于传统深度学习系统的准确率。

除了谷歌的“单次学习”之外，目前较为热门的“迁移学习”也是提高数据训练效率的一种方式，它可以事先把一个预先训练好的模型挪到一个类似的任务上使用，节省了训练时间。

深度学习的某些任务中拥有庞大的数据集，而有些相似的任务却没有那么大数据集。在这种情况下可以从前者训练好的模型中抽掉最后几层，在后者上只另外训练最后几层。如语音识别领域，当研究人员拥有大量英语数据，却缺乏葡萄牙语数据时，但由于两者均受拉丁语影响，有着一定的共性，研究者可事先拿英语语音数据训练模型，基于这个模型在葡萄牙语上训练模型的最后几层，然后对这几层的参数进行微调。

只训练一次数据就能识别出物体，谷歌全新 AI 算法“单次学习”

杨强教授曾在雷锋网承办的 CCF-GAIR 大会中提到一点，大数据设计出来的模型用于小数据上，它的副产品就是个性化。这就是迁移学习的目的。

迁移学习分为两种：样本迁移，特征迁移。其在应用场景中则如下：

基于模型的迁移：如图像识别，训练万张顶千万张。相似度越大，迁移的概率大。
社交网络之间的迁移：将千万人的大数据模型迁移到某个人身上。

由此可以看出，谷歌的单次学习系统与基于模型的迁移在目的上有一定的相通之处。

之前也有研究者开发过单次学习系统，但通常不兼容深度学习系统。而这次具有一定的突破性意义。

韩国先进科技学院大脑和机器智能实验室主任 Sang Wan Lee 说：

这是一种很有趣的方法，它提供了一种新颖的方式对大规模的数据库进行单次学习。这为人工智能社区做出了技术贡献，计算机视觉研究人员可能非常重视此事。

任何新算法在提到效率的同时，总是无法避免它的不足。有学者对单次学习提出了质疑，他认为该套学习系统与人类的学习方法存在很大差异，可能会导致识别准确率的问题。哈佛大学脑科学系副教授山姆·格什曼（Sam Gershman）表示，人类通常是通过理解一张图像的组成元素来学习的，但在此基础上还需要一些实际的知识和尝试。平衡车可能看上去与自行车或摩托车大不相同，但它却可以使用相同的零件。上面提到单次学习是基于物体的独特元素来判断，即便计算机掌握摩托车和自行车的所有零件，但面对拥有相似零件的平衡车时，有很大概率存在误判的问题。

Sang Wan Lee 表示，计算机的单次学习能力要比拼人类还需要经过一段时间，即便是我们自己目前也并没有揭开人类单次学习能力的秘密。