“AI 新时代,我们该关注什么?”
刚刚,在厦门人工智能峰会上,依图科技联合创始人朱珑出席演讲并丢出了这个终极疑问。
在他看来,文明的变迁靠的是科技的推动,科技推动就是基础设施的革命;基础设施提升的关键在于:提升一个区域或者一个城市的智能密度。
智能密度可以分为两个维度考量:
宏观上,要从单体的机器智能到群体的智能。比如说一个摄像头能够识别人脸的数量从100个到1000个、1万个。而且这1万个摄像头能够相互交流,互相对话,并且它们识别出来的信息是可决策的。
微观上,单个计算机能够支撑的智能算力要足够大,这里的智能算力不是简单的机器算力。
高级的算法可以用更少的机器算力实现更高的智能。总之:算力和算法两者决定了智能的密度,而提升智能密度是普及AI的关键。
朱珑总结,从感知智能到认知智能,未来还会出现一个新物种:机器智能,它会慢慢地具备人类的智能。
机器智能的发展可以分成几个阶段:
1、记录功能,没有任何的识别能力;
2、可识别,比如说摄像头能够识别人脸;
3、可关联,不同摄像头之间识别出来的信息之间的关系是什么?怎么判断?
4、可预测、可预判;
5、可规划。
他笃信,随着数据、算法、存储、算力和传输等基础设施的不断提升,AI在未来几年会有更为革命性的发展,让智能文明社会加速到来。
以下是朱珑的全部演讲内容,雷锋网AI掘金志做了不改变原意的整理与编辑:
人工智能为什么重要?
中国和美国都把AI作为国家战略,今天厦门人工智能峰会以及多媒体信息识别技术竞赛的举办也印证了这一点。
人工智能是世界创新的源动力,依图很荣幸能够参加这次竞赛,为国家创新贡献我们的力量。
此前我们参加了三年美国国家标准技术局(NIST)举办的人脸识别供应商测试(FVRT),也获得了三次冠军,深知举办这类赛事的不易,在此向本次比赛的组织者和执行人员致敬。希望厦门能够成为人工智能发展标准和方向的引领者,成为人工智能思想交流的高地。
我简单介绍一下我的背景,从中也能看出美国研究人工智能的不同学派。
我在美国待了十年,我的三位导师,一个是理论物理出身的 Alan Yuille,他也是霍金的学生。
第二个是我在麻省理工大学人工智能实验室读博士后的老板Bill Freeman,他也是在今年4月人类首次拍摄到黑洞照片研究小组的领导者。
第三位大家可能比较熟悉了,纽约大学教授 Yann LeCun,他是推动这一轮人工智能浪潮兴起的技术——深度神经网络的其中一位奠基人,他也因此获得了2018 年的图灵奖。
由此可见,在美国从物理到深度神经网络再到脑科学,不同领域的顶级专家都在研究人工智能,他们推动了过去几十年人工智能的发展,让AI有了今天这个基础。
那么,人工智能发展现在处于一个怎样的状态?
刚才高文院士有讲到人类智能的演化用了大约630万年。我总结了人类文明的变迁:从人类直立行走到形成最原始的社会形态,再到1 万年前的农业革命,工业革命我们花了200年,而人工智能从一九五几年开始到现在,也就60多年的时间,人类的文明史或者是地球的文明史大致就是这么一个区分。
从眼睛看到这个世界的感知智能到语言也即认知智能的诞生,到今天很可能出现一个新的物种,那就是机器,它慢慢地具备了人类的智能。
当机器的智能曲线与人类的智能曲线交叉甚至超过的时候,文明的形态会是什么?这非常值得我们遐想和憧憬或者是思考。
我今天给出最重要的一个观点就是:文明的变迁靠的是科技的推动,科技推动就是基础设施的革命。
这里我列举了一些不同文明时代的基础设施,从刚才谈到的发明火到使用文字,农业文明时期有了轮子、道路;
工业文明出现了蒸汽机、内燃机,有了铁路;
信息文明,也就是我们过去30年的互联网时代,出现了计算机、PC、互联网、手机,人类克服了时空的障碍。
这几个最重要的基础设施的变革,见证了文明的变迁。
我们现在处于什么时代?我们这个时代的基础设施又是什么呢?
过去30年,CPU运算能力提升了100万倍,存储能力也提升了100万倍,通讯能力也即数据的传输速度提升了100万倍。我们现在是站在过去30年的基础上来看接下来发展的基础。
智能时代只谈开始的时间可能定义得不清楚,这里只谈2019年回溯回去的过去五年,我们发生了什么、五年前是什么。
AlphaGo在2015年的时候超过人类的那一天,也是机器以计算机视觉为代表超过人类的那一天,大家可能记忆犹新。
人工智能现在已经非常火了,但就是这火的过去五年,机器又发生了什么呢?机器的算法水平又提升了100万倍,什么意思呢?
就是人脸识别为代表的错误率又下降了100万,它可以从1万人当中识别、1000万人当中识别、 1亿人当中识别出你,10亿人当中识别你,甚至20亿人当中识别你,这是已经看似超过人类的那个时刻之后,它又提升了100万倍,算力提升了10万倍。
从过去我们用1万量级规模的数据做训练,到百万规模的数据做训练,到现在用10亿的数据集做训练,又提升了1万倍,速度是非常快的。
基础设施现在处于一个什么水平?当前发展了这么多, AI处于什么样的一个水平呢?
我这里用比较通俗的一个语言讲一下:人不需要思考、本能地一眼瞄过去,能看见的、能说清楚的、能看懂的,这是机器可以看到的。
比如说这里有人,有座位,这个是机器可以看清楚的。但这么远要识别清楚,可能有点难,比如这里有多少个人?可能要数一数,谁跟谁近,这个会坐在旁边认识,可能要想一想,机器还不一定能做好。
机器可以听懂什么?就一下能听懂的语音识别,理解一句话、一个段落可能就变得困难,对一个文章的理解还比较困难。非常低阶的智能机器已经可以或者接近可以了。我们觉得智能要往下跃迁,最重要的就是提升基础设施,我后面会讲基础设施是什么。
我把机器智能分成几个阶段:
第一个就是记录功能,没有任何的识别能力;第二个是可识别,比如说摄像头能识别人脸;到第三个可关联,不同的摄像头之间识别出来信息之间的关系是什么?怎么判断?这是有关联性。第四个是可预测、可预判。第五个是可规划。大概分这个级别。
我们觉得智能的提升是在基础设施的提升上。
我举城市管理的一个例子,因为城市管理当中包括安防摄像头的覆盖,把刚才讲的五级智能做一个分类,从最简单的代替人记录,可追溯、到可检索、可关联,代替人的推理与决策,代替人统筹,分成几个级别。
右边这一列是说达到这些级别的提升,我们要怎么做。是需要最简单的一定程度下的稀疏摄像头的识别率和到最高到20万个摄像头基本的一个覆盖。
这里可以看到我们的感知需要增加密度,我们的算力需要增加识别的能力,就慢慢地就在整个城市规模上,它有智能等级的跃迁。
这是一个空间布局的感觉,当密度达到一定程度的时候,就可以在空间上或者一个关键场所的围栏上,形成自己的新的高阶的智能,比如看轨迹怎么发生、事件怎么建模。
我们提了一个概念:基础设施提升的关键在于,提升一个区域或者一个城市的智能密度。
分两个维度来解释,一个是宏观上,单体智能要变成群体智能,一个摄像头的智能要变成1万个摄像头的智能,他们之间识别出来的内容是能够汇聚在一起,能够形成一个新的、大的智能体。
微观上,要普及成从一个到1万个,甚至10万个,微观上的算力要急剧提升,才能有经济性,或者说性价比较高的基础能够普及开来。
我们5月份发了一款AI芯片,这是云端的一个视觉芯片,一块芯片能够支撑50个摄像头的算力,那一台1U的服务器可以支撑约两百路摄像头的算力,比同类的市面上最先进的英伟达的方案提高5到10倍的性价比。
一个是它的能耗降低了非常多,空间降低了非常多,降低多少呢?
一个机柜能够支撑一万路摄像头的全解析的功能,且机柜中有空间的限制、电的限制、能源的限制、算力的限制,这是在一个城市在做城市的智能等级的提升上面,有了非常重要的基础设施的准备。由此,我们就可以打开城市管理的丰富的场景。
这里列了大概18个场景,包括机场、火车站等等,可以解锁更多的应用。
我们认为,今天从算法的成就到算法的提升,到我们整个城市或老百姓都能感知到,点亮AI就是要在基础设施上做重大的提升,包括刚才高院士提到的人才资本和政策以外。
我们认为基础设施就是数据、算法、存储、算力和传输,它们一定会在未来的几年会进一步以三倍、十倍的速度再加大速度提升,这才是革命性的,这个会让智能文明更快速的到来。
这是我们的一个小小的愿景,也是希望能够在厦门以10万路的视觉中枢为基础,助力厦门成为全球智能密度最高、智能等级最高的城市。谢谢大家。雷锋网雷锋网