编者注:谭铁牛现为中国科学院副院长、中科院自动化所智能感知与计算研究中心主任,他是中国科学院院士、英国皇家工程院外籍院士、发展中国家科学院(TWAS)院士、巴西科学院通讯院士、中国图像图形学学会理事长、中国人工智能学会副理事长。主要从事图像处理、计算机视觉和模式识别等相关领域的研究工作,已出版编著和专著11部,并在主要的国内外学术期刊和国际学术会议上发表论文500多篇,获准和申请发明专利80多项。曾任中科院自动化所所长、模式识别国家重点实验室主任、中国计算机学会副理事长、国际模式识别协会副主席、IEEE生物识别理事会主席,曾获得国家技术发明二等奖、国家自然科学二等奖和国家科技进步二等奖各1项。
本文根据谭铁牛副院长今天上午在 CNCC 2016 上所做的大会特邀报告《大数据时代的模式识别》编辑整理而来,在未改变原意的基础上稍作删减。
各位老师、各位同学、各位同仁,大家上午好。因为时间有限,今天的报告会尽量简略一点。另外考虑到大家不都是做模式识别,所以今天的报告不会讲的太专业。
首先我注意到今年不管开什么会、谁组织、在哪里开,只要和人工智能挂上边,都很火爆。大家都在提今年是人工智能的60周年,其实今年对整个计算机科学,同样值得纪念的一年。因为
80年以前图灵机模式诞生
70年以前计算机诞生
60年以前才有人工智能
50年以前,计算机领域的诺贝尔奖——图灵奖第一次颁发
所以说今年是整个计算机科学非常值得纪念的一年。
鉴于最近大家人工智能讲得比较多,所以我今天要给大家讲得是一个更具体的问题,也是我本人多年从事的领域——大数据时代下的模式识别。
今天这个报告里我主要讲四个问题。它们分别是:
模式识别的基本概念和历史
模式识别的发展现状
大数据时代的机遇与挑战
值得关注的研究方向
首先是什么是模式识别?
其实很好解释,用我自己的语言来说就是:世上万物,不管是物质的还是精神的,看得见还是看不见的都是一种模式。
所以对这些模式进行分析与处理,进而实现描述、辨识、分类、解释,这就是一种模式识别,后面我还讲提到更多的定义。
模式识别为什么重要?在此我要引用Ray Kurzwell的两句话:
人类思维的真正力量是基于模式识别。
计算机越擅长模式识别会变得越发和人一样。
不管是哪种定义,模式识别基本都可以分为这几个步骤:信号获取—预处理—特征抽取—分类器设计。
当下,与其说人工智能火,不如说是深度学习火。而深度学习之所以火的原因,是因为要提升模式识别的能力(如语音识别、图像识别等)。
因为模式识别是作为人类的一个基本能力,同时这也是模式识别起源的一个基本动力。
跟模式最相关的两个热门话题,一个当然就是机器学习,另一个则是数据挖掘。
模式识别目前也不断引进借助于很多其他学科的基础理论,推动相关学科交叉快速发展。
模式识别发展简史
我到现在为止,也没查到第一次是谁、在哪里提出了模式识别。但是我知道从18世纪、19世纪开始,数学领域中特别是统计科学就涉及到了模式识别,这也为人工智能的诞生奠定了基础。
模式识别的发展大概是如上图所示这么几个阶段,从最开始一直到后来各种基础领域出现,再一直到大数据时代。
模式识别发展到今天,我把它总结为几句话。
模式的基础理念不断创新
从统计模式识别到阶段模式模式识别,还有一直以来都又在研究的神经网络。大概是这么几大类:
句法模式识别(规则学习)
统计模式识别(人工特征)
深度神经网络(自动归档)
它们相互间的结合是未来的发展方向,我一会儿也会讲到这个。
模式识别应用领域不断拓展
另外模式识别的应用领域一直在不断拓展,因为能够应用模式识别的地方实在太多,所以一直在不断提升。
模式识别系统性能不断提升
模式识别系统的性能也一直在不断提升中,比如像ImageNet图像识别赛上,它的结果一直在不断提升中。
模式识别的典型成功应用
语言识别、语言合成
人脸识别
虹膜识别
模式识别的成功应用很多,在此不展开讲了,稍微举几个例子大家参看一下。
人脸识别,但双胞胎人脸识别解决不了。
虹膜识别,下图展示的是在真实的煤矿场所,煤矿工人考勤场景。为什么用虹膜对他进行识别?因为指纹识别在这种场景下无法使用,人脸识别在上班之前可以,下班的时候就不行了。
另外再举一个模式识别的例子——步态识别。为什么要特别提到步态识别这个例子呢?因为目前相对来说还有一点挑战。
在你相距几十米远的时候,虹膜也好、人脸也好,你无法进行识别。
另外一个挑战就是,他是从正面走来,还是从侧面走来。最近借助于深度学习,这个部分也有了一些新的进展。
还有一个例子是智能视觉监控,在此就不展开详细讲述了。
现有模式识别的局限性
尽管模式识别在很多领域都成功应用,但还是有巨大的挑战。在此我想再引用Robert M.Haralick和Thomas G.Dletterich的两句话:
计算机视觉(模式识别)的根本问题是一个鲁棒性问题,如果不考虑鲁棒性问题,计算机视觉几乎所有问题都解决了。
现阶段只能系统需要在开发环境下具有自适应性,对噪声具有鲁棒性。
核心的意思就是它的局限性受限于鲁棒性和自适应性。如果这两个问题解决了,很多问题就能迎难而解。
大数据的出现、深度学习的性能提升在一定程度上解决了鲁棒性、自适应性的问题,但是跟人相比还有巨大的差距。
所以这个领域还需要我们继续去努力学习,深度学习尽管取得很大成功,但是跟人的相比它的鲁棒性、自适应性、泛化能力有很大差距。
所以,我把现状概括这么几句话:
面向特定任务的模式识别已取得突破性进展,有的性能可与人媲美。
统计与基于神经网络的模式识别目前占主导地位,深度学习开创了新局面。
通用模式识别依然任重道远。
鲁棒性、自适应性和可泛化性是一个进一步发展的三大瓶颈。
我们目前实实在在的处在大数据时代,大数据的价值不在于大数据本身,而在于它内容的理解与识别,而这里面很多就是模式识别的问题。
所以我觉得第一个机遇,就是把大数据变成知识、变成决策能够依据的根据。而发掘这个金库的钥匙就是模式识别,只有这样才能实现“From Data Bonanza to Data Bonus”。
机遇2:推动理论和方法创新
机遇3:加速学科领域交叉和渗透
加速学科领域交叉和渗透主要分两个方面:
以数据驱动为代表的分析方法在大数据时代具有广泛用武之地,使得若干传统学科(如神经科学)等的研究方法也出现了巨大创新,为模式识别方法拓展到其他领域的方法中带来了重要契机。
相关领域在大数据时代的原创成功也能够对模式识别理论与方法带来影响,进而推动模式识别学科与其他学科的协同创新。
机遇4:引导科技发展新变革
机遇和挑战同在,机遇抓不住也是挑战。
挑战1:复杂的大数据
挑战2:计算效率和性能
挑战3:大数据的语义计算与理解
语义就是人们根据自己对现实世界的理解而赋予信息的解释。
挑战4:大数据理解需要信息论的创新
还是那句话,在这些机遇和挑战面前,尽管我们讲机遇大于挑战,但是机遇抓不住就是挑战,挑战解决不了,那就是机遇。
一、面向大规模多源异构数据的鲁棒特征表达
二、结构与统计相结合的模式识别新理论
三、数据与知识相结合的模式识别
四、具有鲁棒性和自适应性的生物启发模式识别
五、基于跨领域跨模态知识迁移的模式识别
六、以互联网为中心的模式识别
模式识别是人工智能的核心内容,是大数据时代的关键使能技术。
大数据带给模式识别诸多新的机遇与挑战。
大数据时代的模式识别具有十分广阔的创新空间与发展前景。