雷锋网 AI 科技评论按:2018 年 12 月 17 日,由鹏城实验室、新一代人工智能产业技术创新战略联盟共同举办的「新一代人工智能院士高峰论坛」在深圳隆重开幕。本次论坛持续两天,由 17 日的主论坛和 18 日的医疗专题论坛组成。
17 日的主论坛的演讲嘉宾包括众多国内一线科技企业的技术负责人、多位高校教授,以及论坛的关键嘉宾:高文、赵沁平、俞大鹏、吴建平、桂卫华、廖湘科六位院士。演讲嘉宾做了精彩的报告,院士们也在现场讨论中分析解答了观众们提出的许多问题(人工智能开源开放平台的技术挑战,人工智能核心技术及关键应用落地)。
ACM / IEEE Fellow,腾讯 Robotics X 实验室张正友博士也是 17 日主论坛的演讲嘉宾之一。他的报告题目是《人工智能和智能机器人》。张正友博士曾任微软人工智能及研究事业部首席研究员和研究经理,是世界著名的计算机视觉和多媒体技术的专家,在立体视觉、三维重建、运动分析、图像配准、摄像机自标定、人脸表情识别等方面都有开创性的贡献。他发明的平板摄像机标定法在全世界被普遍采用,被称之为「张氏方法」。
雷锋网 AI 科技评论根据现场速记把演讲全文整理如下。
张正友:各位领导、各位院士、各位同学,大家好!首先感谢高文老师邀请,给我一个机会跟大家分享一下我对人工智能和智能机器人的一些想法。
在此之前我想介绍一下我自己,因为我是最近才回到国内的,我从 1986 年就离开了祖国,我是 1985 年从浙大毕业的,当时第一次接触计算机,用的是大型计算机,可能大家都没用过,我当时用的是打孔的卡片,和电脑交互。毕业以后就去了法国,在法国之后用的电脑就越来越小,刚开始我学的是语音识别,后面转到计算机视觉,当时觉得语音识别太简单了,只有一维性,所以开始做立体视觉。我参与开发了世界上第一个用三维视觉做机器人导航的。然后我还参与了欧洲 Mars Rover,也就是航天机器人,还有海底机器人。在法国十几年之后,我去了日本,在日本待了一年,开发了世界上第一个用人工神经网络做人脸表情识别的设备。1998 年加入了微软研究院,在微软工作了 20 年,开发「张氏标定法」,就是摄像机标定的方法,现在全世界都在用这个方法,无论是无人驾驶、机器人还是视觉方面都在使用,我也开发了 Kinect 深度传感器,还有远程操控机器人的研究工作。
我介绍这些,主要是讲我为什么有现在的这些想法,这是和我的经历有关系的。
下面我讲一下人工智能,人工智能是一个多学科的交叉研究,现在大家可能都觉得人工智能都是和计算机有关,其实它是和脑神经、认知科学、数位科学有紧密关系的,它主要包括识别、分析和决策等等方面。
1843
人工智能技术是有很多层次的,从基础设施到硬件计算能力、算法、技术方向,包括计算机视觉、语音处理、语言处理等等,到最后运用到具体的技术,解决行业的各个问题。
人工智能技术其实已经发展了好多年,从最开始基于规则,慢慢的基于统计,现在开始做一些数据方面的研究,应用也是很多的。
最近人工智能经过几个高潮和低潮,现在火起来了,这里面很大的原因就是深度学习,深度学习让我们的识别率在很多方面得到很大提高,超出了我们在实际应用中需要的精确度。比方说以前很长时间,语音识别可能只达到77%,现在已经能达到97%了,其实是可以用了。所以催生了很多公司,包括大公司和小公司,还有创业的很多公司。这里我列了一些国内的公司。
腾讯有一个腾讯AI开放平台,网址是 ai.qq.com,它依托腾讯的三个实验室,腾讯 AI 实验室、微信 AI 实验室,以及腾讯优图实验室。我加入腾讯创建了一个机器人实验室 Robotics X,目前需要的不是这些AI技术。腾讯 AI 开放平台现在已经开放了100多项 AI 能力的接口,大家需要的话可以去试一试,欢迎大家使用。
下面就回到我今天要讲的主题,我加入腾讯就是想创建机器人实验室,为什么我要参与这项工作?因为我觉得我们在不久的将来要进入到人与机器人共生的时代。为什么我这样讲?刚才我讲了好多方面,一是从计算的演变,计算从最初的大型计算机到PC的普及,到互联网的兴起,到智能手机的普及,到现在可穿戴式或者陪伴的设备,这些都说明了这个计算能力从最初的固定的时间、固定的程序、固定的地方慢慢变得移动化、无处不在,还有连续化,你随时随地可以拿到你要的信息。另外计算也变得非常个人化,无论是GPS还是信息,都是在你的手机、PC上,所以得到无微不至的关注。
另外从感知技术上看,刚才讲到我最早用的是打孔的卡片,慢慢有了键盘、鼠标,后面又有了摄像头、触摸器等等。现在我们的智能手机上有很多的传感器,除了摄像头以外,还有很多其它的传感器,现在设备变得越来越主动、个人化和多模态,我们现在还没有充分地把这些感知技术用起来,我们大部分人都是把手机放在口袋里的,女士可能都是放在包里的,这些就是我们的技术还没有得到充分的应用,所以我认为我们应该把这些传感器从口袋里面或者是从女士的包里面解放出来,这是我们以后需要追求的机器人的方向,就是要从非常发达的感知技术里面把这些能力用起来。所以我觉得随着技术发展和感知技术发展,机器人必然会出现,但是目前还不够,所以我们还要继续研发。
接下来讲一下机器人的现在与未来。可以把机器人分成6个部分,
第一部分是机器人本体。可能很多人都忘记了,说到人工智能,人家都以为就是一个算法就够了,但是它还要一个本体,这样才能实现真正的智能,本题就包括它的手臂、腿等等。
第二是感知,因为机器人需要了解周围的环境,才能做决策。
第三是执行器,如果没有执行器的话,机器人本体动不起来。
第四是动力系统。
第五是交互系统,机器人需要跟机器人交互,还需要和人交互,所以交互系统也是非常重要的。
第六是决策,机器人要识别、规划,还要学习。
讲到机器人,大家都会想机器人很早就存在了,以前我们讲的是工业机器人,它更多的是有关自动化的,预先设计好了之后做重复的运动。现在我们开始慢慢往自主方向发展,自主的目的就是要在有很大不定性的动态的环境里面,它要自主地决策需要做的事情,然后完成任务。
我们把自主分成两部分,一部分是反应式自主,它不需要很多深度思考,比方说我们走路的时候可能绊了一跤,我们很快获得平衡,或者是机器你踹它一脚,它马上获得平衡,这是反应式自主。第二个是有意识的自主,需要你决策路径。
怎么识别这两种自主呢?我用了一个叫做 SLAP 的范式来描述它,这是讲一个机器人的结构,SLAP 是什么意思呢?就是 Sense(感知)和 Act(行动)之间要紧密结合,它帮助我们实现了反应式的自主,然后在这上面有一个 Plan,它是做规划的,这个规划是帮助我们去实现有意识的自主。在这个周围我们需要另外一个能力,就是 Learn,我等会儿还会继续强调。机器人需要通过和外界交互,不断地提升自己的能力。当你有了智能以后,机器人就可以在很多场景里面,比方说在智能制造、老年陪伴等等很多方面都有应用。
机器人本体目前有 6 个趋势,第一个是仿生的机器人,比如说蛇形机器人,它可以进入到比较复杂的环境里面,比方说在地震或者其它环境里面搜寻有没有人还活着。第二是灵巧的操控,第三个是触觉技术,第四个是多机器人协同,第五个是人机交互,包括安全交互和物理交互,第六是医疗辅助。
刚才讲到,我认为我们在不久的将来能够进入到人和机器人共生的时代,但是目前的技术还没到那个地步,所以无论是在工业界还是学术界,都需要努力地做更多的研发。我认为机器人领域有一些技术需要突破,才能使得机器人真正能够为人服务。
我把它的技术突破点总结成 A2G 理论。A2G (A to G)是什么理论呢?就是 ABCDEFG 刚好对应了机器人技术相关的一些方面,A 代表的是 AI,B 是 Body(机器人本体),C 是 Control(控制),D 是 Developmental(发育学习),E 是 EQ(情商),F 是 Flexibe Manipulator(灵活操控),G 是 Guardian Angel(守护天使)。A、B、C是代表了人工智能的集合能力,D、E、F、G 是相当于它们需要更高的智能或者是系统。
A 就是 AI(智能),因为机器人必须要能看、能说、能听,能够理解,这样才能跟外界交互,能够实现它要做的事情。B 是 Body(本体),这是非常重要的,不同的本体决定了机器人的能力,比方说刚才讲的蛇形机器人,它能够穿过很狭窄的通道,到一个很复杂的环境,所以本体也是需要研究的。C 是 Control(控制),这是比较清楚的需要继续努力的方向。
我刚到腾讯的时间不长,现在我做了三个机器人,大家去腾讯新大楼的展厅都可以看到。第一个是绝艺围棋机器人,第二是桌上冰球机器人,第三是一个机器狗。
大家知道腾讯 AI 做了一个绝艺围棋 AI,但是无论是绝艺围棋 AI 还是 AlphaGo,都需要有一个人去下子。绝艺围棋 AI 告诉一个人应该下哪个子,他会下。我们现在加了一个机械臂,它自动去完成下子的任务,这是从本体来做的。从感知角度来讲,它要做一个棋盘和机械臂之间的标定,绝艺要通过后台通讯,知道要下哪一步,控制方面就是机械臂的轨迹控制。
这是桌上冰球的机器人,它的感知是一个高速的摄像头,它能够高速的跟踪冰球的位置,然后预测下一步这个冰球在什么地方出现。它有一个决策,就是到底采用攻击的方法还是防卫的方法,控制就是路径规划和快速控制。
机器狗,它的本体是我们和浙大合作的。它的感知系统是我们自己做的,感知系统能够识别不同的场景和地面,能够避开固定的或者动态的障碍物,控制方面就是针对不同的场景,它能够有不同的步态和平衡控制。
机器狗有 3D 激光传感器,同时周围有四个广角的摄像头,前面还有一个立体的视觉系统。
当看到前面有一个比较高的障碍物,它能够匍匐前进。
当看到前面有人的话,它会蹲下来跟人交互。
这只是简单的几个系统,是最近我们做的,大家下次有机会参观腾讯的展厅的时候,可以去跟这些机器人互动一下。
我们对机器人 ABC 的评估标准,要从力量、灵巧、快速、准确和优美的角度评估这些机器人的能力。
这里还想讲一下本体,因为机器人领域里面很多人都强调是人形机器人。对这个问题我有一点思考,人形机器人是不是我们需要追求的机器人的目标?人之所以有直立双足,是经过几百万年演化出来的,是要在荒野里面、大草原里面生存下来,所以我们有了直立双足。但是目前机器人的工作环境,大部分情况下都是平的地方,再加上几个台阶,而且没有生存淘汰的压力。所以我们现在去研究机器人,不一定是一个人形机器人,而是应该思考什么样的最佳的机器人本体,在现在的环境里面要去实现你需要的任务。
下面讲一下 D—G 。D 是进化学习,目前尽管人家说我这个机器人是通过深度学习出来的,但是学习出来的能力还是固定的,放到一个机器人身上,它永远是这样的,但是我们人从出生开始就跟父母、跟周围人交互,能力越来越强大,所以我们怎么让机器人也具备进化的能力,这是我们需要研究的。
E 是 EQ,因为人和机器人是要共存的,它必须对人有一个深刻的理解,包括感情的理解,同时要用适当的方式把这个感情表达出来,让人理解,所以情感交互是非常重要的。
F 是灵活操控,我们看到电视、电影里面都是高科技的钢盔铁甲的机器人,但是在人和机器人共存的时代,这些机器人往往对人造成伤害,所以我们要研发不会对人造成伤害的机器人,所以这里面有人造皮肤,或者是高精度触感的传感器,这样能够灵活操控。
G 是 Guardian Angel(守护天使),机器人最终的目的是要服务人、保护人,不能把它当做一个独立的个体,它应该跟周围的环境和周围的传感器结合,同时还要和云结合,这样即使你的家庭成员或者朋友不在边上,你也能够很快地跟他们取得感情的交流。
我们也有一个用于进化学习研究的机器人。我们 Robotics X 实验室的目的就是要为人机共存、共创和共赢的未来准备的,这里面包括了增强人的智力、关怀人的情感,发挥体能的潜力,还有推进人机协作。
前面讲了很多机器人,现在我要给大家泼点冷水,人工智能和机器人还有很长的路要走,现在仅仅是人工智能和机器人的初春。讲寒冬不太合适,初春比较准确。
举个例子,几周前在宁波街头的一个街头的系统识别到「董明珠过马路闯红灯了」。但事实上董明珠并不在那边,而是卡车的车身广告上有董明珠头像的广告,公交车从旁边经过,识别系统发现了,认为是董明珠闯红灯了,这说明它的识别率是很高的,认出了这个图片是董明珠,但是也说明它是很傻的,它不知道这个不是真人。现在很多东西都非常单一,不接地气,这里面还有很大的工作要做,这是从计算机视觉方面举的一个例子。
第二个例子是自然语言的,「前门到了,请从后门下车」,我们都明白是什么意思。然后我们看看现在的机器翻译能不能理解对。我们用谷歌翻译,它把「前门」翻译的是「Front Door」,它的翻译是错的,我觉得可能谷歌不懂中国的国情,所以我用了百度的翻译,它还是翻译「Front Door」,所以百度对中国还是不了解。
我想可能是我的语法不对,我改成了「前门车站到了,请从后门下车」,百度的翻译仍然不对。人工智能语义理解方面还有很大提升空间。
还有机器人方面的例子,大家知道有一个叫索菲亚的机器人,被阿联酋封为他们的荣誉公民,他们说可以和人交互,但是它还远远达不到这样的水平,它的对话都是通过预先设计好的场景来对话的。
人家说人工智能会消灭人类,我已经从事了30多年的人工智能研究,我觉得是不用担心的。但是确实人工智能已经发展了很多,有很多应用的地方,所以我们需要继续往前推进人工智能的应用。但是还要继续投入更多的研究,无论是视觉、语音还是自然语言,或者是机器人,还有认知等等,都需要继续努力,不光是应用,还要有基础的研究,所以我觉得有鹏城实验室这样一个平台是非常好的,我也非常乐意回到祖国,和大家一起为人工智能的发展贡献我自己的一份力量。谢谢大家!
雷锋网 AI 科技评论编译