编者按:2016年8月12、13日,雷锋网(搜索“雷锋网”公众号关注)在深圳举办了盛况空前的“全球人工智能与机器人峰会(CCF-GAIR)”,来自中美加的全球最为顶尖的科研实验室、学术权威、产业大咖、投资领袖共同探讨人工智能、机器人、无人机、智能驾驶等四大领域的未来趋势和产学研发展方向。雷锋网将会议精彩演讲内容与视频精心编辑,近期将逐步放出。
“在座的哪一位能在国际象棋比赛中赢 IBM 深蓝计算机?能在围棋比赛里赢 Google 的阿尔法狗? ”
孙宇教授以这样的提问开场,并不是想强调如今计算机多么高的智力水平,而是想引出一个对比:计算机下棋超过全人类,但是至今却还没有出现能堪比人类双手的机器手。
“世界上最高级的机器人灵巧手,也赶不上一个一岁小孩的手能力。”
我们双手的重量只占我们体重的百分之一,成人有 206 块骨头,其中四分之一的骨头在我们的双手里。人手的精密复杂程度超出很多人的想象。
而造出可堪比人手功能的“机器手”,一直是孙宇的梦想。
启蒙:1993 年的《终结者 2》
大部分人在回顾自己人生中重要的“启蒙点”的时候,往往是青少年时代的一部小说或者是电影。对于孙宇教授来说,这个“启蒙点”,就是略带黑暗色彩的《终结者 2》。
那是在 1993 年。
“我看完了电影,并没有对人类的未来充满担心和忧虑,而是满脑子的终结者机器人,特别是和人手一样灵活的机械手。我的人生梦想就是像 Miles Dyson一样成为第一造出终结者手的人。带着这个远大的梦想,我来到了美国犹他大学,进入了 John Hollerbach 的实验室读博士。”
然而进入实验室的第一天,他的梦想就破灭了,因为他看到了这个名为“Utah/MIT Hand”的机器手。
Utah/MIT Hand 是 1983 年造出来的, 比他看到《终结者 2》还要早 10 年。这个机器手,是由两位天才制造出来的:Stephen Jacobsen 和 John Hollerbach。
前者带领的团队在 Utah 设计并制造了机械部分;后者带领的团队当时在 MIT 开发了控制和智能部分。Steve Jacobsen 在今年 3 月份,因心血管疾病去世了。
从1983 年开始,更多的机械手被发明出来,它们个个精密复杂,但是有一个共同的缺点:贵,而且不实用。
“像下图中具有代表性的四个,每一个都很酷,都跟瑞士劳力士手表一样设计精密,机械部件精准咬合,有十几个可动关节,传动装置。很多的气动或者电机驱动,还有个共同特点,每一个都很昂贵。这里面最便宜的 Bionic hand 也要三万多英镑, 最贵的要十几万美元。”
“在很多实验室中,这些精致的机械手演示各种各样与人手相媲美的能力:可以做家务,做饭,日常起居无所不能。而现实中却没有一款被大规模应用。不光是因为造价昂贵,还因为复杂的机械结构,控制很多的动力装置都十分困难。大家看到的演示,多是精心设计和编排,通过大量编程实现对某个特定场景。”
所以孙宇教授认为,机械手光酷是没用的,更重要的是实用。在可以抛开“酷”的枷锁之后,就可以完全从工程的角度来设计机械手:外形不那么令人惊艳,但是有用。
而这个理念,好莱坞早就接受了。
“电影《机器人总动员》里,机器人瓦力(Wall-E)只有三根手指,而且和人的手指头完全不同。它可以用自己简单的手做很多事情,至少在动画片里,它可以换灯泡。”
“纯粹的工程办法来解决抓取,完全不需要机械手。工业生产里早就有了及简单又完美的解决方案:真空吸盘或者真空杯。上一年在 ICRA, 亚马逊举办了了一个抓取挑战赛。赢得挑战赛的 TU-Berlin 团队就是用真空吸杯来吸起亚马逊的商品,然后放到包装盒里。今年上个月刚结束的亚马逊抓取挑战赛,同样是用真空吸杯的队伍赢得了比赛。而且前三名都是用真空杯。”
所以在这个背景下,两年前,美国 DARPA 当时的负者人Gill Pratt 就宣布机器人抓取已经解决了。
“Gill 并不是讲了个笑话。我个人认为,抓取从一个地方抓起一个物体,然后放到另一个地方的大部分问题已经解决。但是有些工程问题没有解决:抓起工具并使用工具的抓取,还远远没有解决。”
这些工程问题没有解决,在于“智能芯片”的发展远远不够。
“问题的关键并不在机械手本身,而是机器人的智能还不够。《终结者》电影里机械手和智能芯片是产生终结者机器人需要的两个最重要的技术。我们已经有了各式各样的机械手,甚至有在机械结构上与终结者机器人手类似的机械手,但是却还没有另外一个更重要的技术——终结者机器人的智能芯片。”
而孙宇教授所在的实验室,目前最主要的任务之一,就是致力于为机器手开发出相匹配的“智能”--FOON。
“ 我们实验室发明了一个面向功能对象网络(Functional Object-Oriented Network,简称 FOON),它是一个存储功能对象和操作信息的中心知识网络系统......这个系统通过处理在线视频,比如 YouTube 上的视频,来得到功能对象和操作信息。"
这就是一个通过学习视频而得到的巨大“知识库”,而人们通过搜索知识库就可以得到想要的信息。
“比如,我晚上想吃烤牛排,就告诉我的机器人。机器人通过查询 FOON 这个知识网络,得到这么一个图,不光给出做烤牛排需要什么原料,还给出所有步骤和每一个步骤需要什么操作动作。FOON 的基本元素里包含了物体和操作的信息。”
计算机在虚拟世界里可以做的很好,而一旦涉及到实实在在的物理环境,就会“发生差之毫厘失之千里的事情。”
“如今,计算机智能在很多领域里已经把人类远远的甩在了后面(比如下棋)。而之所以机器人领域中还有很多问题没有解决,就是因为机器人要与现实环境有实实在在接触,这是计算机智能和机器人智能的区别。”
比如说拧螺丝这个动作,在拧的过程中会受到不同的作用力。
“螺丝刀与螺丝之间有实实在在的接触。手不光要抓紧螺丝刀,使螺丝刀不滑落,而且还要为螺丝刀提供拧螺丝的运动和力。同样的物体, 不同的操作任务也会需要不同的运动和力,自然需要不同的抓握方式。”
而孙宇教授所做的,就是根据不同的任务总结出不同的要求,然后根据这个要求得到最优的手抓解决方案。
“比如说使用锤子,需要做的是,怎么让机器手运行最少的动作步骤来完成任务。有时,机械手在运动期间要保证鼠标不掉出去;有时机器手拧灯泡,这个灯泡要跟灯座有实实在在的运作。”
最后,孙宇教授鼓励大家参加今年 10 月份在韩国举办的一个比赛。
“我们发表了 9 个任务,都是有实实在在基础的任务。从一个碗里面取豌豆放到另一个碗里面,复杂的是机器人抓锯割木板。希望大家更多的来关心机器人灵巧手抓取,Make Grasping Great Again。”
PS: 本文是根据 8 月 13 日孙宇教授参加 CCF-GAIR 发表的演讲进行的精编整理,原文请点击 AIR 042 | 南佛罗里达大学孙宇教授:机器人灵巧手抓取的复兴
孙宇教授演讲的完整视频,请戳:视频链接