AIR 024 | 从感知到认知的长征：计算机能“看懂”什么？

人工智能大数据计算机视觉图像识别

作者：史中

2016/08/13 07:05

60年以前，计算机视觉被第一次提出。这个人工智能的重要分支领域，到今天已经历经一个甲子。这段历史几乎覆盖整个计算机史，可谓跌宕起伏。

熟悉人工智能史的人都会了解，这门现在看来叼炸天的科学其实经历了三落三起。用微软亚洲研究院常务副院长芮勇的话说就是：在90年代的时候，研究机器学习的学生连工作都很难找到。

AIR 024 | 从感知到认知的长征：计算机能“看懂”什么？

【微软亚洲研究院常务副院长芮勇，背景为人工智能之父：马文.明斯基】

在今天的 CCF-GAIR 全球人工智能与机器人峰会，芮勇讲述了在他眼中的计算机视觉发展史：一次长征。

从特征提取，到理解图片

人能看到图片，而计算机只能看到“0”和“1”。

芮勇用一句话概括了机器视觉的艰难。纵然艰难，但是我们却慢慢让机器“睁开了双眼”。这些成就是进阶形态的：

1、特征提取

在人们最初试图用机器来识别图像的时候，只能对图片上的像素进行分析。研究人员于是意识到，在图片中并不是所有的像素都是“平等”的，而是有一些像素比另外一些重要。

从这个角度来看，这些像素就被分为了“线条、转角、色彩”等类别。于是仿效人类对图片的观感，机器开始试图从线条、灰度、色彩这些最基本的“特征”开始，对一个图片进行最基本的认知。

AIR 024 | 从感知到认知的长征：计算机能“看懂”什么？

2、图片分类

经过多年的技术积累，计算机技术对于一个图片的基本特征有了较好的把握，于是科学家们试图让机器对图片进行分类。

这种分类同样经历了由浅入深地阶段。以一张小狗的图片为例。

首先要基本分类，让机器学会判断图片中是否有一只狗；

其次要位置探测，让机器可以准确识别小狗在图片中的空间位置；

然后是像素级分类，最理想的状态是，可以分辨出一张图片中某个特定的像素究竟是属于狗还是背景中的电视。

AIR 024 | 从感知到认知的长征：计算机能“看懂”什么？

芮勇说，在2013年深度学习技术被引入图像识别之后，识别错误率大幅下降。目前技术比较成熟，例如可以从上百种狗里，准确地挑出和目标对应的种类（这一水准已经超越人类）。甚至在一些复杂的图片中，只露出半个胳膊，也可以被成功识别为一个人。

3、理解图片

芮勇告诉现场观众，目前我们普遍使用的“以图搜图”功能并不是他心中的“理解图片”，只能算是临近图片搜索。而真正对图片的理解，要理解图片的意义。比如如下这张图：

AIR 024 | 从感知到认知的长征：计算机能“看懂”什么？

如果计算机可以用自然语言描述这幅图：一个小朋友和他的爸爸在迪斯尼乐园玩。这才是理解。事实上，现在人工智能科学家已经做到了这一点。

进一步，机器视觉可以实现对世界上名人的识别，并且可以做出描述：“彭麻麻和米歇尔一家在故宫合影”。

AIR 024 | 从感知到认知的长征：计算机能“看懂”什么？

【彭丽媛与米歇尔一家在故宫合影】

芮勇说，目前微软的技术可以做到全球排名前50万的名人人脸识别。

从感知到认知

在芮勇眼中，我们现在的计算机视觉，大多停留在“感知”的层面，而下一个可能的目标是：“认知”。

对于认知而言，就不仅仅是表面的描述，而是可以了解图片的隐含意义以及文化意义。他为我们描述了前方等待攀登的四座山峰。

1、隐含意义

先来看如下一幅照片：

AIR 024 | 从感知到认知的长征：计算机能“看懂”什么？

过去，这幅图片可能被描述为：一个男人被象追着跑。

现在，有了人脸数据，这幅图片可以被描述为：奥巴马被一群大象追赶。

但是，对美国政治有了解的童鞋看到了不仅仅是一副不知所云的画面，由于在美国共和党一般用象来代称，所以他们看到的应该是：

“在美国大选前夕，奥巴马被一群共和党竞选者追赶。”

这个逻辑链条推导出的引申意，才是这幅图像的隐含意义。未来，人工智能有可能会解决这个问题。

2、视频识别

对于计算机视觉来说，识别一个视频中的图像意义，相对于识别一帧图片来说要难得多。处理视频，需要对每一帧之间的联系进行统一的计算和识别。

不过芮勇表示，目前已经有一些模型从不同的角度出发，来解决这个问题了。在不久的将来，计算机应该可以通过一段文字来描述一个视频。

AIR 024 | 从感知到认知的长征：计算机能“看懂”什么？

【目前已经可以实现对视频中物体的像素级识别】

3、互动聊天

现在我们使用的聊天机器人，例如微软小冰，可以进行简单的聊天对话。但是并不能像人类一样，可以实现表情包的“相互轰炸”。在未来，很可能人工智能机器人可以“读懂”你的表情包。

例如你给小冰看这张图：

AIR 024 | 从感知到认知的长征：计算机能“看懂”什么？

你绝对不期望它回复你：“这是一只猫。”你可能希望它回复：“卧槽！”

这里还有一些“正常的”回复，他让你感觉到自己在和另一个有感情的人在对话，而不是一个机器。

AIR 024 | 从感知到认知的长征：计算机能“看懂”什么？

4、针对图片的具体问答

在人类的对话中，经常涉及到对于图片的具体情况的问答。例如在下面的图片中：

AIR 024 | 从感知到认知的长征：计算机能“看懂”什么？

对于左上角这一幅，你可以询问计算机：“在泥泞的地上拉车的是神马？”答案是：“马”。

这个对人来说非常简单的判断，但是对于计算机来说，却要经历诸多步骤：

什么是地？
什么是泥泞的地？
哪里是地上？
什么是车？
什么是拉？

通过层层筛选，最终计算机会给出如同热力图一般的蒙版，狂顶出它认为的答案范围。而在这个范围内的物体，就是答案。

芮勇告诉雷锋网，虽然微软现在已经实现了上千种常用物体的图片问答。但是仍然有很多物体不能被识别，这项技术仍然有非常大的进步空间。

另外，如何通过一幅图片，理解并且讲述其背后的故事，也是未来图像识别的研究方向。

艰苦的长征

2016年，深度学习和图像识别都有了很大的进步。不过芮勇说，这肯定不是“长征的胜利”，这些进步就像是长征途中的“遵义会议”，经历了一次重大的转折胜利，但是仍然有很远的路要走。

芮勇说，未来有三个条件可以保证长征成功：

1、机器学习算法本身的发展。人工智能可以从90年代的低谷到现在的高潮，好的算法可谓功不可没。而不断改进的算法，还可以让计算机视觉的图像识别率更加提高。

2、垂直领域专家。计算机视觉的发展，其实不仅以来计算机科学家，还要靠其他领域的专家协作，在垂直领域产生效果。例如和金融领域的合作，可以更好地预测股票市场；和医疗领域合作，可以发明更精准的治疗手段；和植物学家合作，可以实现仅仅拍照就能识别植物的种类和习性。

3、大数据。大数据是机器学习的粮食，如果有充足的，质量高的大数据，可以让机器智能实现巨大的飞跃。

以上这些条件，看起来我们并不缺少。芮勇对于成功“到达陕北”充满信心。

专题

CCF-GAIR | 全球人工智能与机器人峰会查看更多文章