AIR 036 | 清华大学孙富春：视听觉认知的8年抗战

孙富春李德毅 CVPR 深度学习

2016/08/13 12:26

AIR 036 | 清华大学孙富春：视听觉认知的8年抗战

8月13日，在CCF - GAIR峰会第二天的智能驾驶专场，清华大学教授孙富春带来了国家自然科学基金委员会重大研究计划视听觉信息委员会的八年计划。

孙富春表示，这个项目经过8年的论证到2008年才在国家自然基金委成立，这是视听觉认知计算的重大立项。从2008年到2017年总共也是8年，他们的目的是研究人类视听觉的认知机理，发展新的高效计算模型，提高计算机对与人视听觉感知相关的图象、语音和文本信息的理解能力和处理效率，是围绕认知过程的表达与计算的基本科学问题。

什么是人类视听觉的认知机理？

感知基本特征的提取、表达和整合
感知数据的机器学习与理解
关于跨模态学习的信息协同与计算

他们的主要工作就是研究人对视听觉的感知，这些信息在脑区是怎么编码的？脑区是怎么合作的进行信息的融合？并且把这些变成可计算的模型，这样的话我们就可以把听觉信息和视觉信息进行编码，通过可计算的模型进行处理来对环境进行感知和理解，并且把这种理解和人的理解进行比较，最终把这种技术用在无人驾驶方面。

在演讲中展示了他们从2008年开始8年在视听觉感知中的重要成果，并且从2009年开始至今总共举办了7次无人车的挑战赛，在过程中:

发表更多的关于认知科学方面的成果。
把自然语言理解和脑机接口把它集成到车的平台上，许多成果现在还停留在实验室。
通过无人车平台取得的重大进展，进一步促进创新，引领无人车产业的发展。

未来的愿景

1、认知机理研究成果，如何形成可计算的模型，这个我们探索了很多的方法，还需要进一步地完善。
2、在环境感知的拓扑结构信息如何在认知过程中表达与理解。
3、探索新兴的多模态传感器，如把声音视频信息集成在一起。
4、研究人机智能混合问题，这个也是刚刚国家提到的人工智能2.0版本，我们要研究人机混合的智能系统。

希望能通过无人车挑战赛个平台发表更多的关于认知科学方面的成果。

以下为演讲实录：

尊敬的各位来宾，女士们先生们，大家上午好！如果有一天你坐在驾驶车里面，看到驾驶室里没有驾驶员，或者是这个驾驶员没有把握方向盘，你千万不要震惊，因为我们已经进入了一个无人驾驶的时代。你可能难以想象，从长沙到武汉，2800多公里的路段里面，有雨天也有晴天，人工干预仅仅占整个路段的0.75%，从北京到天津150公里的路段里面，没有人工干预，实现全程的自主驾驶。可能你更难以想象的是，在2.08米障碍的路段里面自主车穿越只有11厘米的绒线，自主车的效率是人工的5倍。

我们今天给大家带进由国家自然科学基金委员会重大研究计划视听觉信息委员会的八年里面走过的一个一个故事。

视听觉信息的认知计算我把它比喻成8年抗战5年的解放战争和抗美援朝。这个项目经过8年的论证到2008年才在国家自然基金委成立，视听觉认知计算的重大立项。走到今天我们要感谢郑南宁、李德毅、陈琳、孙家广等院士。

视听觉信息首先是看到，这张图大家可以看到，这张图是在1997年发表的一篇文章里讲到的，大家看到，上帝对人特别青睐。从我们的眼睛到微曲的皮层。这个环节是连接了感知部分和信息处理部分，大家想想这么长的一个感知和处理部分，我们的触觉和其它感觉听觉都没有这么长的感知和处理路段，所以大家看到的眼睛是我们心灵的窗户。我们人类获取外界的80%的信息是来自视觉，我们皮层的60%都是跟视觉相关的。

听觉也是非常重要的部分，自然图象经过系数编码以后的稀函数，近年的研究我们更加发现了触觉与视觉同构，这就使我们想到瞎子的眼睛特别好，未来我们可以通过人工摄像机把视觉编码变成触觉编码，让瞎子感受到外部的世界，这两年已经有人工视网膜的出现，渴望打通另一条通道。这两年我们也发现，就是这个语音，语音在稀疏编码下的去燥特性特别好。语音是否也具有像触觉一样的底层结构呢？这是我们要研究的问题。本计划中的视听觉信息是指与人视听觉感知相关的图象语音和文本。

我们平时日常生活里的视听觉信息非常多，我们有各种各样的手段，我们叫信息器，手机、摄像机、网络的摄像机、卫星遥感等等等等。大家应该可以想到，我们现在的人生活在一个三元世界里面，哪三元世界呢？就是一个网络世界，物理世界，和它们共享的知识世界。网络产生之前，我们生活在一个二元世界里面，三元世界的人是怎么工作的？我一个学生说你把这两个英文给我翻译一下，我说你明天给我，他马上就给我了，他放到谷歌里一翻译检查一下。过去我们很难想说机器人有全局智能，它的智能是局部的，今天在网络世界里，机器人完全可以得到全局智能。

讲一个最简单的例子，自主车完全可以到一个陌生的环境里，比如从机场来到我们的会场，它只要简单地在网上找到一条路径，搜狗地图它可以规划路径，通过摄像机的形态识别可以找到我们的会场，进入到会场中间来，这就是网络给我们带来的。大家看到，网络这里面有大量的，我们叫海量的视听觉的感知数据。我们如何有效地快速地发现这些技术，把它变成可用的知识，这是无人驾驶里非常重要的方法。

大家看到，在语音监控和听觉监控里面，首先我们来看一下视频的监控，比如北京，现在有一百多万的摄像头，它的信息量是多大呢？一个小时的信息量相当于中央电视台所有的节目的总和，这么大量的信息是很难得到基本的及时的处理。另外在语音监控方面，我们举一个简单的数字，比如境外法轮功入镜电话每天达到50万个，日通话量四亿分钟，我们怎么有效处理这些信息，也是非常难的。

我们再来比较一下机器人和人，我们都很清楚，对于结构化的信息，比如像报表，考试学生的信息登记，诸如此类的。机器的能力远远地大于人，但是对于非结构化的信息，比如说听觉信息，汽车行驶过程里的视觉信息人远远高于机器，我们可以快速在人群里找到我熟悉的朋友。有人驾驶汽车可以在任意非常复杂的环境里进行驾驶。所以尽管机器的计算速度提升比较快，但计算机的认知能力非常落后，它的认知能力甚至不及一个三岁小孩。

我们来比较一下人机器处理方式上并行是人墙，感知方面的话，人特别擅长跨模态的信息，大家知道猫的视觉皮层和听觉皮层是重合的，但是人恰恰是分开的。视觉触觉听觉，这些是怎么合作的？人为什么具有这么强大的能力，整体性方面和选择性方面也是人强。人在人群里能看到妈妈，如果是双胞胎的妈妈小孩认出来了，机器认错了。而且小孩知道他说的意思是什么，这是机器难以做到的。

我们视听觉认知的指导思想就是要研究人对视听觉的感知，这些信息在脑区是怎么编码的？脑区是怎么合作的进行信息的融合？并且把这些变成可计算的模型，这样的话我们就可以把听觉信息和视觉信息进行编码，通过可计算的模型进行处理来对环境进行感知和理解，并且把这种理解和人的理解进行比较，最终把这种技术用在无人驾驶方面。

介绍一下我们的重大计划是2008年到2017年总共也是8年，我们的目的是研究人类视听觉的认知机理，发展新的高效计算模型，提高计算机对与人视听觉感知相关的图象、语音和文本信息的理解能力和处理效率，为国家的安全和国民经济作出重要贡献。所以我们围绕这个需求，我们的目标是围绕认知过程的表达与计算的基本科学问题。

一、感知基本特征的提取、表达和整合，主要我们要探索人力视听觉信息基本特征的提取、表达与整合机理，为建立相关高效计算模型奠基基础。

二、感知数据的机器学习与理解，主要围绕图象、语音和语言数据的非结构化和半结构化特点使计算机难以实现从数据层到语义层的转化，建立新的机器学习方法是实现这种转化的有效途径。

三、关于跨模态学习的信息协同与计算。视觉信息和听觉信息它是一个动态序列，它可以表示成什么？运动流形的形式，比如说这个是流形式视觉信息，这是听觉信息。视听觉融合首先要找到这两个信息流形的公共部分，然后称为相融信息，然后才能对相融信息进行处理。

多模融合大家来看一看，两个传感信息的基函数是一样的。图象和声音的函数基是不一样的，这里要引出主稀疏的概念，如果两个函数相差比较小，我们可以找到它的公共部分，这个是基于组稀疏编码的这样一个原理。所以我们的预期成果是围绕三个核心的科学问题来开展前沿基础的研究。主要我们在视听觉信息认知问题的基本理论上经过了八年努力取得了很多进展，三个关键技术都取得了突破，比如在视听觉信息的协同计算、自然语言的理解与视听觉认知相关的脑机接口。我们还创建了两个国际性的比赛，一个是无人车的未来挑战性，一个是脑机接口的比赛。

下面来看看我们取得的成绩，我们有三个国家自然科学奖等。

（PPT）

驾驶脑是我们这些年研究的突出成果，它的主要成果是模拟我们人进行驾驶的经验。一个叫下行，我们人在这样一个环境里面怎么样来决策，通过我们人的长期经验来学习人的认知能力。这里面就是我们在学习人的视听觉信息能力的时候我们要去掉人在驾驶过程的一些情绪的影响，比如人在驾驶过程里面可能有一些受到情绪的影响，这些在我们的认知过程里是要去掉的。

我们继续看看，这是我们人的脑，它有长期记忆，有性格，人的性格决定了他开车的保守或者说有的人是比较张扬的。我们有长期意义区，就是人在长期驾驶过程里形成的经验和技巧。动机就是完成出行任务从起点到终点的一次性路径规划。短期记忆：表示驾驶员的选择性注意，仅仅关注刚刚过去的以及当前的周边驾驶态势。情绪：拒绝人脑中的情绪部分进入驾驶脑，永远不会因情绪而分散注意力，机器人始终专注。大家过去也看到，说一个驾驶员经过一个街道的时候发现街道的大楼上有一个非常表现的姑娘的照片，结果撞车了，现在的机器人无人车是可以杜绝这种现象。再一个是学习和思维，比如SLAM的基础上，通过记忆匹配，完成二次规划，来决定下一时刻的行为。这就是驾驶脑的概念。

我们把这个概念从上行和下行得到下面一个图式，我们的眼睛、耳朵可以感知外面的环境。我们的人根据感知的环境信息，比如说在哪里，这旁边有没有障碍和目标，通过长期记忆区来决策这种情况下我应该如何驾驶，这叫行动。然后把行动的信息和感知信息之间进行比对，我是不是达到了我行为的效果，就形成这样一个闭环，从动态感知到态势分析、自主决策到精确的控制和在线的行动。这样的话我们就把驾驶脑形成了这样一个图，前面部分我们叫感知部分，叫感知域。规划部分叫认知域，这个部分我们叫行动域。

这样的话，比如说我们的驾驶车上有第一个是GPS、雷达和光学系统，一般来讲我们在比赛里面GPS是不用的，然后形成长期和短期记忆，然后把这些感知信息进行融合，形成驾驶的态势图。这里面有一个很重要的概念就是路权，就是形成过程中车本身占有的空间，在这个基础上形成自主决策。比如速度应该有多少变化，转角应该多大的变化，形成决策记忆池。通过控制模块控制无人车，这个从感知到决策到控制，形成这么一个闭环。这是通过英伟达的DrivePX的自动驾驶系统。

（PPT）

这是最后形成的轮式机器人，向经验驾驶员学习开车的过程，左边显示的是过去驾驶的经历，这边一边是人驾驶的经验过程，大家看到最右边这块是我们的无人驾驶汽车，通过感知，通过态势数的形成，实现驾驶态势的感知。然后通过认真提取，然后形成记忆。这个是当前的认知，人在驾驶过程里面当前的认知，包括山路、视觉综合形成的驾驶态势图，跟经验态势进行匹配，这种环境里我完成这么一个任务应该怎么驾驶，我找我的经验库里面，我过去做过这个事，这个情况下应该这么做可能效果最好，找到匹配，找到以后就把这个经验用来学习，用来认识，然后操纵方向盘。

这个过程可以通过深度学习来实现，比如说我们就做过，我们通过第二次模型来推理，在这个环境下面向这样一些障碍，我应该怎么去做，驾驶的速度变化量多少，角度变化量多少，形成一个模型，这个模型也可以通过深度学习表达出来。

我们专家组还有一项非常重要的工作就是车辆的检测问题，这个问题就是过去从1998年以来没有一篇文章介绍车辆的检测方法是完全脱离训练样本的，我们这里提出了一种方法。这个方法是在二维和三维空间之间进行三重推理然后进行交互印证，这个框架完全脱离训练样本，充分李永乐三维语义场景和图象信息。

在过去八年里面，我们在视听觉信息的认知和机理方面也做了很多工作，比如在神经科学领域的Neuron而2012和IEEE CVPR2010里就有一项工作。这项工作在美国CVPR里面，这个方法的效率大大提高。这个工作是关于多触觉的视觉分割，采用具有不同时间结构的噪音刺激落研究大脑的时间分割过程，发现两个优化的时间尺度。

大家都知道，国际上有一个国际脑成像大会，这个大会一般人很难在这里做大会报告，这个报告是由组委会的学术委员会选举产生的，我们国家20多年来没有一个去，在18届会议上我们的陈霖院士作为第一个做了大会主题报告。

在多通道的脑机接口方面我们有一篇很好的工作，在连续两年里面，这篇文章被列为这个杂志引用最多的文章。

（PPT）

这是一篇关于非侵入式脑机接口的高效率字符输入，把字符输入速度整整提高一倍，这篇文章发表在美国自然科学的刊物里面，这是这个领域目前最好的工作。我们还把脑机接口放在无人驾驶方面，通过脑控来控制无人车的运动。另外我们通过脑机接口实现自动泊车。这是我们从2008年以来一直坚持下来的脑机接口的比赛，现在在非浸入式脑机接口方面我们处于世界领先地位。

这里有些展示我跟大家做一个汇报。这个图就是2011年的7月份从长沙到武汉，总共286公里，历时3小时22分钟，这个路段有下雨，有超车，整个的人工干预只有2140米。这个工作是2014年11月25日完成了北京到天津长距离高速公路自主驾驶实验，历时1小时30分钟。

（视频）

最后用两分钟的时间介绍一下我们无人车的挑战赛，我从2009年开始到去年总共举办了7次比赛，第一次是西安的长灞生态区，当时2.6公里的路段。2010年也是在西安由长安大学举办的，也是2.6公里的路段，主要测试曲线行驶等。2011年在鄂尔多斯，加到了10公里，后面我有一个表列出了这几次比赛的基本情况。2013年开始在常熟，2014年到2015年都是在江苏的常熟。我们把七次比赛列在这个表里面，七年来参赛队数人数越来越多，最多的是22个队，比赛场景是越来越复杂，从2.6公里到6.7公里到10公里到13.5公里。从比赛的结果来看，人工干预最后基本上没有了，而且速度是越来越快，包括刚才我演示的从长沙到武汉，从北京到天津都是无人干预下来完成的，所以我们的比赛是从局限的封闭道路越来越走向真实的道路环境里面。

最后总结一下，8年当中取得了很多成绩，还有些工作我们觉得今后也是非常重要的。第一个是认知机理研究成果，如何形成可计算的模型，这个我们探索了很多的方法，还需要进一步地完善。第二个是在环境感知的拓扑结构信息如何在认知过程中表达与理解。另外探索新兴的多模态传感器。比如把声音视频信息集成在一块。另外就是人机智能混合问题，这个也是刚刚国家提到的人工智能2.0版本，我们要研究人机混合的智能系统。

最后我们的想法就是我们要借助这个平台发表更多的关于认知科学方面的成果。第二个把自然语言理解和脑机接口把它集成到车的平台上，许多成果现在还停留在实验室。第三就是我们的要求是通过无人车平台取得的重大进展，进一步促进创新，引领无人车产业的发展。

最后我用这首诗结束我今天跟大家的分享：《贺全球人工智能与机器人峰会》，人机仿造胜奴仆，亲我劳耕续史书。（PPT）

谢谢大家！

专题

CCF-GAIR | 全球人工智能与机器人峰会查看更多文章