AIR 025 | 360 首席科学家颜水成：有关机器视觉的六个洞见

人工智能 360 颜水成深度学习

作者：史中

2016/08/13 07:10

从飞鸟到飞机，从蝙蝠到雷达。人类对自然界的每一次致敬都能把自己带入一个新时代。而人工智能，恰恰是向自然界的王者——人类——致敬。

自从有计算机那天开始，人们就从未中断让机器拥有智慧的梦想。在这条路上，有一位广受世界学界尊重的大师，他就是来自 360 的首席科学家、国际知名计算机视觉与深度学习专家颜水成。

他不仅在国际上领域数次引领了计算机视觉的研究方向，还进行了大量前瞻的实践，让计算机模仿婴儿大脑的运作方式，一步步观察学习这个世界。

在 2016 CCF-GAIR 全球人工智能与机器人峰会上，颜水成接受了雷锋网的专访，分享了他对于人工智能和计算机视觉的洞见。

AIR 025 | 360 首席科学家颜水成：有关机器视觉的六个洞见

【360 首席科学家，360 人工智能研究院院长颜水成】

1、端上的智能

目前的人工智能很多都依靠云端的计算，但是有些场景并不适合云端。例如：

特斯拉的自动驾驶技术，对于面前的路况进行图像采集之后，如果发送到云端进行处理，会有明显的延时，这样等结果返回本地，往往已经错失了处理的时机，就失去了意义。

直播业务中为主播实时加上装饰的技术，例如为主播加上虚拟的耳环。这种场景下，如果从服务器上拉回来计算结果，会有时延，由于主播在运动，所以没办法精确对位，体验就会很差。

有的智能摄像头会提供一个功能：查看是否有可疑人员进入监控区域。如果设备销量很大，大量用户同时使用这个功能，这时如果在服务器端进行计算，就会对服务器造成很大压力。

还有很多智能设备的应用环境是没有网络的，无法和服务器交互。

AIR 025 | 360 首席科学家颜水成：有关机器视觉的六个洞见

【特斯拉自动驾驶示意图】

以上这些场景，如果将运算任务直接下发到智能设备终端上，这些瓶颈就会迎刃而解。

但是，把运算载荷放到设备上，显然要克服诸多问题。其中最大的一个就是：终端设备的运算能力存在天花板。（由于智能设备成本有限，大多不可能配备顶级运算芯片）

解决这个问题，有两个方向：

1、降低运算的精度。例如在手机端识别人脸和年龄，精确度必然难以比肩专业的识别系统。但是这种从95%到85%的精度损失，是人们可以承受的。

2、改进计算模型。当然，最好的情况是能够开发出新的更优计算模型。但是在现有模型下，也可以通过改进策略实现算法精简。例如颜水成带领团队研究了一些算法调整，在原有算法基础上增加了一些判断那些逻辑不用计算的策略。这样虽然看起来规则更复杂了，但是总体来看计算量是减少了。

颜水成认为，这些策略的优化是非常有意义的，因为成本往往是实现商业化的重要因素。

2、人工智能专用计算芯片

目前最主流的人工智能芯片，全部采用 GPU。但是 GPU 的体量大，耗能高，无法在手机等设备中使用。目前看来，在手机或硬件上智能使用性能稍好的 CPU。

从目前来看，市面上还没有一款专门为端设备研发的深度学习芯片。而中国人也在试图给出在这个领域的专用芯片。

例如中国科学院计算技术研究所的“寒武纪”芯片，和由前百度深度学习研究院院长余凯创建的地平线机器人科技，都在试图制造这样的专用芯片。

AIR 025 | 360 首席科学家颜水成：有关机器视觉的六个洞见

【寒武纪芯片】

由于芯片生产是一个非常重的产业。一款芯片从流片到量产往往需要一年到一年半的时间，耗费数百万美元。如果无法大规模销售，那么将会造成成本无法控制。

在成熟的芯片可用之前，用各种方法降低端芯片的运算量，不失为一个好的方法。

3、类脑计算

当你看到一个人的照片，有关他的很多故事就会自动涌现在你的脑海里，这就是人脑的奇妙之处。

类脑研究一直以来都是人工智能领域很超前的研究方向。简单来说，就是要准确掌握人脑的工作原理，在此基础之上用相同的原理设计深度学习网络。

但是颜水成说，人脑研究领域的发展并没有想象中快。但是他非常欣赏以人脑为启发研究出来的计算模型。

例如当一个人看到某个物体时，这个物体是不断地对视网膜进行冲击，这个信号就像流水一样，在神经的各个部位达到了一个新的平衡。

AIR 025 | 360 首席科学家颜水成：有关机器视觉的六个洞见

这就像一个水管网络，在入口加压，会层层推导，造成整个网络的各个节点的压力同时改变。

“对于大脑而言，某个图像对整个系统加电信号，会导致与之相关的所有记忆和知识瞬间涌现。”

这样的效率会远远高于目前人工智能所使用的线性计算。

虽然这种模型听上去很奇妙，但是在实际的方程求解方面，仍然面临重重问题。不过颜水成表示，在这个方向上，也许未来能有新的解决方法。

4、无监督学习和自学习

目前的深度学习，无一例外需要大量的数据。例如要想让机器可以准确识别出一只狗，需要先让系统“看”成千上万只狗。但这显然和人类的学习方式不同。

一个小孩子，可能只需要看到一两只狗，就可以认识全世界所有的狗。

AIR 025 | 360 首席科学家颜水成：有关机器视觉的六个洞见

【无监督学习】

从这一点上看，“小样本”“无监督”“自学习”是人类完胜机器的方面。那么机器有没有可能实现小样本无监督学习和自学习呢？

这也许就要回到每个人最初认识世界的那一刻。

颜水成说：

根据一些研究，每个小孩子最初的视觉学习都是从运动的物体开始的。婴儿就像青蛙一样只能识别运动的物体。因为物体只有运动，才能分割出眼前世界的区块。而从这里出发，才有了物体的概念。这以后才是小样本学习和自学习的过程。

颜水成对这种学说非常感兴趣，这实际上展现了机器视觉的新入口：视频。

从视频切入，发现人类和机器学习的密码。这也是颜水成带领团队正在进行的工作之一。

5、人脑的两套识别系统

你有没有这样的经历。看到一个人，你确信认识 Ta，但就是想不起 Ta 的名字？

这个人脑特有的现象，不经意间揭示了一个人脑运作的巨大秘密。

AIR 025 | 360 首席科学家颜水成：有关机器视觉的六个洞见

【经常想不起对方的名字】

颜水成向雷锋网分享了他最近了解到的一个新的假说：

这可能说明人脑分为两套识别系统：参数模型和非参数模型。

对于不常见到的人或物体，大脑会选择把他们放置在非参数模型中；直到你经常看到这个对象，大脑才会把它转移到参数模型中；如果接下来又长时间不见面，这个对象又会被移动回非参数模型中。

这大概就是动画片《头脑特工队》所描述的规则。

AIR 025 | 360 首席科学家颜水成：有关机器视觉的六个洞见

而这个规则，恰恰可以和人类的学习模型相联系。

例如父母刚刚教会了小孩“马”。这时“马”就进入到了他大脑的非参数模型中，直到他有一天到了动物园，观察到新的“马”。这些样本累积到了一定程度，就会使得“马”进入到了参数模型。

这种认知模型，对于改进机器学习的架构有着重大的意义。机器的无监督学习和自学习似乎露出了一丝曙光。但是颜水成说，人类的学习远远不是这么简单，因为人的学习不仅是依靠图像，还结合了声音、语义。而在这些方面，研究空白很大。

6、语义理解

对于 AI 来说，最重要的有四个方向：视觉，语音、语义、大数据。

而目前科学家在视觉，语音和大数据方面，都实现了可用性比较强的人工智能。唯独在“语义理解”这个最重要和易感知的方面徘徊不前。

这也是为什么目前的所有人工智能机器人感觉都有些“辞不达意”的原因。

究其原因，仍然是之前提到的：人类现有的语义理解实现技术和人大脑的工作架构完全不同。人对于语义的理解，不仅仅是建立在对方的话语本身之上，还要综合考虑话语环境，知识背景、情绪等等因素。这些因素中的任何一个，目前都不能被人类科学家很好地控制。

颜水成坦言，这方面的研究非常困难，已经超越了他的能力范围。但也是正是专注于自己的视觉和大数据研究领域，才能专心做出更多的成绩。

AI，这两个字母充满了神秘和浪漫的气息。这不仅代表了我们对于未知的渴望，对于创造的期待，也代表了我们对于自身智慧的无上虔诚。

在人工智能领域的每一个洞见，都可以让我们更加接近那个终极的答案。

这让我们感到欣喜。

AIR 025 | 360 首席科学家颜水成：有关机器视觉的六个洞见

颜水成，360 首席科学家，360 人工智能研究院院长。曾在新加坡国立大学领导机器学习与计算机视觉实验室。颜水成的主要研究领域是计算机视觉，深度学习，与多媒体分析。他的团队提出的“Network in Network” 对深度学习产生了很大的推动力，他的团队在五年内曾7次问鼎计算机视觉领域“World Cup”竞赛 PASCAL VOC 和 ILSVRC的世界冠军和亚军奖项。

专题

CCF-GAIR | 全球人工智能与机器人峰会查看更多文章