李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

2017/10/27 08:17

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

雷锋网 AI 科技评论报道：中国计算机学会 CCF 举办的中国计算机大会CNCC 2017已于10月26日在福州市海峡国际会展中心开幕。参加会议的人数众多，主会场座无虚席。雷锋网 AI 科技评论也派出记者团全程参与大会报道。

26日上午开幕式结束后，多位特邀嘉宾进行了现场演讲，主题涵盖计算机科学发展中的新技术和应用、自然语言利净额、AI如何服务于人、人工智能在信息平台的应用等等。斯坦福大学副教授、谷歌云首席科学家、机器学习界的标杆人物之一的李飞飞进行了题目为「Visual Intelligence: Beyond ImageNet」的演讲。

李飞飞首先介绍了视觉对生物的重要性，以及计算机视觉在物体识别任务中的飞速发展。然后继续与大家讨论了计算机视觉的下一步目标：丰富场景理解，以及计算机视觉与语言结合和任务驱动的计算机视觉的进展和前景。场景理解和与语言结合的计算机视觉进一步搭起了人类和计算机之间沟通的桥梁，任务驱动的计算机视觉也会在机器人领域大放异彩。李飞飞介绍的自己团队的工作也丰富多样、令人振奋。

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

李飞飞首先介绍了构建视觉智能中的第一个里程碑，那就是物体识别。人类具有无与伦比的视觉识别能力，认知神经科学家们的许多研究都展示出了这一现象。李飞飞在现场与听众们做了一个小互动，在屏幕上闪过一系列持续时间只有0.1秒的照片，不加任何别的说明，而观众们还是能够识别到有一张中有一个人。

MIT教授Simon Thorpe在1996年的一个实验中，也通过记录脑波的方式表明，人类只需要观察一张复杂照片150ms的时间，就能辨别出其中是否包含动物，不管是哺乳动物、鸟类、鱼，还是虫子。

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

这种对复杂物体的快速视觉识别能力是人类视觉系统的基本特质，而这也是计算机视觉中的“圣杯”。在过去的20年中，物体识别都是计算机视觉社区研究的重要任务。ImageNet就是起到了贡献的数据集之一。

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

从2010年以来，从 2010 到 2017，ImageNet 挑战赛的物体识别错误率下降到了原来的十分之一。到 2015 年，错误率已经达到甚至低于人类水平。这基本表明计算机视觉已经基本攻克了简单的物体识别问题。

计算机视觉研究当然不会止步于 ImageNet 和物体识别，这仅仅是人类丰富视觉感受的基础。

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

下一个关键步骤就是视觉关系的识别。这项任务的定义是：“把一张照片输入算法模型中，希望算法可以识别出其中的重点物体，找到它们的所在位置，并且找到它们之间的两两关系”。

两张照片都是人和羊驼，但是发生的事情完全不同。这就是单纯的物体识别所无法描述的了。

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

在深度学习时代之前，这方面也有不少的研究，但多数都只能在人为控制的空间中分析空间关系、动作关系、类似关系等寥寥几种关系。随着计算力和数据量的爆发，在深度学习时代研究者们终于能够做出大的进展。这需要卷积神经网络的视觉表征和语言模型的结合。

在李飞飞团队ECCV2016的收录论文中，他们的模型已经可以预测空间关系、比较关系、语义关系、动作关系和位置关系，在“列出所有物体”之外，向着场景内的物体的丰富关系理解迈出了坚实的一步。

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

除了关系预测之外，还可以做无样本学习。举个例子，用人坐在椅子上的照片训练模型，加上用消防栓在地上的图片训练模型。然后再拿出另一张图片，一个人坐在消防栓上。虽然算法没见过这张图片，但能够表达出这是“一个人坐在消防栓上”。

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

类似的，算法能识别出“一匹马戴着帽子”，虽然训练集里只有“人骑马”以及“人戴着帽子”的图片。

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

在李飞飞团队的 ECCV 2016 论文之后，今年有一大堆相关论文发表了出来，一些甚至已经超过了他们模型的表现。她也非常欣喜看到这项任务相关研究的繁荣发展。

在物体识别问题已经很大程度上解决以后，李飞飞的下一个目标是走出物体本身。微软的Coco数据集就已经不再是图像+标签，而是图像+一个简短的句子描述图像中的主要内容。

经过三年的准备后，李飞飞团队推出了Visual Genome数据集，包含了10万张图像、420万条图像描述、180万个问答对、140万个带标签的物体、150万条关系以及170万条属性。这是一个非常丰富的数据集，它的目标就是走出物体本身，关注更为广泛的对象之间的关系、语言、推理等等。

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

在Visual Genome数据集之后，李飞飞团队做的另一项研究是重新认识场景识别。

场景识别单独来看是一项简单的任务，在谷歌里搜索“穿西装的男人”或者“可爱的小狗”，都能直接得到理想的结果。

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

但是当你搜索“穿西装的男人抱着可爱的小狗”的时候，就得不到什么好结果。它的表现在这里就变得糟糕了，这种物体间的关系是一件很难处理的事情。

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

如果只关注了“长椅”和“人”的物体识别，就得不到“人坐在长椅上”的关系；即便训练网络识别“坐着的人”，也无法保证看清全局。

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

他们有个想法是，把物体之外、场景之内的关系全都包含进来，然后再想办法提取精确的关系。

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

如果有一张场景图（graph），其中包含了场景内各种复杂的语义信息，那场景识别就能做得好得多。其中的细节可能难以全部用一个长句子描述，但是把一个长句子变成一个场景图之后，我们就可以用图相关的方法把它和图像做对比；场景图也可以编码为数据库的一部分，从数据库的角度进行查询。

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

李飞飞团队已经用场景图匹配技术在包含了许多语义信息的场景里得到了许多不错的量化结果。不过，这些场景图是谁来定义的呢？在Visual Genome数据集中，场景图都是人工定义的，里面的实体、结构、实体间的关系和到图像的匹配都是李飞飞团队人工完成的，过程挺痛苦的，他们也不希望以后还要对每一个场景都做这样的工作。所以在这项工作之后，他们也正在把注意力转向自动场景图生成。

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

比如这项她和她的学生们共同完成的CVPR2017论文就是一个自动生成场景图的方案，对于一张输入图像，首先得到物体识别的备选结果，然后用图推理算法得到实体和实体之间的关系等等；这个过程都是自动完成的。

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

这里涉及到了一些迭代信息传递算法，李飞飞并没有详细解释。但这个结果体现出的是，这个模型的工作方式和人的做法已经有不少相似之处了。

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

这代表着一组全新的可能性来到了人类面前。借助场景图，们可以做信息提取、可以做关系预测、可以理解对应关系等等。

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

QA问题也得到了更好的解决。

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

还有一个研究目标是，给图片配上整段的说明文字。

当李飞飞在加州理工学院读博士的时候做过一个实验，就让人们观察一张照片，然后让他们尽可能地说出自己在照片中看到的东西。当时做实验的时候，在受试者面前的屏幕上快速闪过一张照片，然后用一个别的图像、墙纸一样的图像盖住它，它的作用是把他们视网膜暂留的信息清除掉。

接下来就让他们尽可能多地写下自己看到的东西。从结果上看，有的照片好像比较容易，但是其实只是因为我们选择了不同长短的展示时间，最短的照片只显示了27毫秒，这已经达到了当时显示器的显示速度上限；有些照片显示了0.5秒的时间，对人类视觉理解来说可算是绰绰有余了。

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

对于这张照片，时间很短的时候看清的内容也很有限，500毫秒的时候他们就能写下很长一段。进化给了我们这样的能力，只看到一张图片就可以讲出一个很长的故事。

在过去的3年里，CV领域的研究人员们就在研究如何把图像中的信息变成故事。

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

他们首先研究了图像说明，比如借助CNN把图像中的内容表示到特征空间，然后用LSTM这样的RNN生成一系列文字。这类工作在2015年左右有很多成果，从此之后我们就可以让计算机给几乎任何东西配上一个句子。

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

比如这两个例子，“一位穿着橙色马甲的工人正在铺路”和“穿着黑色衬衫的男人正在弹吉他”。

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

这都是CVPR2015上的成果。两年过去了，李飞飞团队的算法也已经不是最先进的了，不过那时候确实是是图像说明这个领域的开拓性工作之一。

沿着这个方向继续做研究，他们迎来的下一个成果是稠密说明，就是在一幅图片中有很多个区域都会分配注意力，这样有可以有很多个不同的句子描述不同的区域，而不仅仅是用一个句子描述整个场景。在这里就用到了CNN模型和逻辑区域检测模型的结合，再加上一个语言模型，这样就可以对场景做稠密的标注。

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

比如这张图里就可以生成，“有两个人坐在椅子上”、“有一头大象”、“有一棵树”等等

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

另一张李飞飞的学生们的室内照片也标出了丰富的内容。

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017

在最近的CVPR2017的研究中，他们让表现迈上了一个新的台阶，不只是简单的说明句子，还要生成文字段落，把它们以具有空间意义的方式连接起来。这样我们就可以写出“一只长颈鹿站在树边，在它的右边有一个有叶子的杆子，在篱笆的后面有一个黑色和白色的砖垒起来的建筑”，等等。虽然里面有错误，而且也远比不上莎士比亚的作品，但我们已经迈出了视觉和语言结合的第一步。

李飞飞最新演讲：视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017