编者按:我们和电脑之间的交流正在发生着转变,而深度学习也已经润物细无声地进入我们的生活,甚至在你意识到这一点之前,世界已经截然不同。
本文首发于 fortune,分上下篇,由老吕IO、江小片及何忞联合编译,未经雷锋网允许不得转载。
什么是人工智能?
人工智能
人工智能是一个广义概念,它可以应用到任何一种可以使计算机模拟人类智慧、使用逻辑算法、决策树、机器学习(包括深度学习)的技术中。
机器学习
它是人工智能的一个分支,包括能使机器根据经验完成任务的深度统计技术,机器学习包括了深度学习。
深度学习
深度学习是机器学习的一个分支,它包括允许软件自行完成任务的算法,例如语音和图像识别,通过多层神经网络系统传输给大数据。
深度学习可以改变任何一种工业,谷歌大脑项目的领导者 Jeff Dean 说:“计算机视觉一旦开始使用就会产生许多基本变化。”随后他又纠正说:“现在计算机已经打开了人们的新世界。”
曾经有一个假设是这样说的:当超级智能机器不需要人类的参与就可以完成许多事情的时候,那些低能的人类就要面临被淘汰的危险。难道现在是要证明这个假设了吗?
或许并不是。神经网络系统甚至比人类更善于模式识别,但是它们并不能推理。
2009 年发生了第一次变革。那年夏天微软的Lee邀请多伦多大学的神经网络大师 Geoffrey Hinton 来参观。根据他的研究,Lee 的团队研究了神经网络对于语音识别的应用。Lee 说:“对于结果我们很震惊,用第一个原型准确度提高了 30% 以上。”
2011 年,根据 Lee 的研究,微软将深度学习技术应用到了它的商业语音识别产品中。随后在2012年8月谷歌也应用了这项技术。
但是真正的转折点是在 2012 年 10 月,在意大利佛罗伦萨的一间工作室,斯坦福人工智能实验室的领导人、著名的年度 ImageNet 计算机视觉大赛创办人李飞飞宣布,两位 Hinton 的学生发明的软件能以比竞争者高达两倍的准确度识别物体。Hinton 说:“这是个引人注目的结果,这个结果说服了很多之前对此表示怀疑的人。”(在去年的一场深度学习超越人类的争论中。)
图像识别像是一个发令枪,它引发了一场新的聘用比赛。谷歌聘用 Hinton 和赢得比赛的那两名学生,Facebook 签约法国深度学习创新者 Yann LeCun,他是在二十世纪八十年代和九十年代都赢得了 ImageNet 比赛的算法先驱。而百度则聘用 Ng,他是斯坦福人工智能实验室的前领导人,他在 2010 年也领导了谷歌大脑计划的深度学习项目。
从那时起的挖人风波愈演愈烈,如今,微软的 Lee 说:“在这块领域里一场血腥的人才相争之战正在上演,顶级的头脑需求就像美国橄榄球联盟足球员那么多。”
68 岁的 Geoffrey Hinton 第一次听说神经网络是在1972年,那时他刚在爱丁堡大学开始他的人工智能毕业设计。本科在剑桥的时候已经学习了实验心理学,他对神经网络算法十分感兴趣,神经网络是软件构造基础,这种灵感来自于大脑中神经元的工作模式。那个时候神经网络没有那么受欢迎,大家都认为他们疯了,但是 Hinton 坚持干着。
神经网络展现了计算机学习的前景:像孩子学习那样从经验获得,而不是通过人类设计的程序发出的蹩脚的指令。他回忆说:“大多数人工智能从那时起都是由逻辑启发,但是有的人很晚才意识到逻辑这回事。两三岁的孩子没有逻辑,所以对于智能,神经网络似乎比逻辑能更好的应用。”(逻辑是 Hinton 的一个家庭交易,他出身科学世家,他是19世纪数学家 George Boole 的玄孙,在 Boolean 研究之后,逻辑和算法得以命名。)
在 20 世纪 50 年代和 60 年代期间,神经万罗在计算机科学家中很盛行,在 1958 年,康奈尔大学研究心理学家Frank Rosenblatt在布法罗的实验室,在一个海军项目中,以神经网络构建了一个原型,他称之为Perceptron。他利用了一台充满整间屋子的穿孔卡片电脑,试验 50 次以后它可以辨别左右两边的卡片,《纽约时报》报道:海军认为现如今的电子计算机的雏形将来会听说读写、行走、繁殖、有存在意识。
Perceptron的软件由于限制,只有一层神经元,但是研究者认为将来会有多层或深层神经元网络。
Hinton 解释了这个理论。假设神经元网络在绘制摄影图像,比如说画一只鸟。“输入指令‘像素’然后第一层单元就会检测边缘,一边暗,另一边亮,第二层神经元会根据第一层的数据进行分析。”例如,某一个神经元会直接描绘鸟嘴的角度。
下一层会进行更复杂的立体基阵,比如许多边排列成一个圈。这时神经元可能对应出鸟的头部。更高级的神经元会检测在鸟头部附近的圆圈里反复出现并列的像鸟嘴的角度。它会检验那是不是鸟头。Hinton说道,更高级的神经元层会对应出更复杂的形态,直到绘制出我们所定义的“鸟”的形状。
然而,仅仅通过神经元层给出信息是不够的,我们需要知道最高层神经元是否得到了正确结果,如果没有的话,需要撤回信息确保低级神经元能够重新整合优化结构。于是深层学习就出现了。
在 20 世纪80年代初期,Hinton在研究这个问题,法国的一位叫Yann LeCun 也在做相同的研究,他刚开始在巴黎进行他的毕业设计。LeCun 对 Hinton 1983 年的一篇阐述了多层神经元的文章产生质疑。“在那个时候,这篇文章没有很好地进行表述,因为在那个时期,你提到‘神经’和‘神经元’这样的词是很难发表文章的。”他回忆道,“于是他就以模糊不清的方式写了文章,审稿人才通过这篇文章,但是我对这篇文章很感兴趣。”二人在两年后相见,并就此展开研究。
1986 年,Hinton 和他的两位同事就利用算法解决错误相关问题发表了学术文章。“这篇文章是神经元第二次风波的基础。” LeCun 说,这再次燃起了他对此领域的兴趣。
跟随 Hinton 完成博士后工作以后,LeCun 在 1988 年去了美国电话电报公司的贝尔实验室,在这个地方,他完成了接下来十年的基础工作研究,这些研究至今仍在图像识别领域被沿用。 20 世纪 90 年代,根据 LeCun 的研究,贝尔实验室的子公司 NCR 生产了一种神经元支持的产品,这种产品广泛用于银行,它可以读取支票上的手写数字。同时,两名德国研究员也独立研究了不同类型的算法,20 年后的今天,这种算法在自然语言处理应用程序中十分重要。
然而在 20 世纪 90 年代中期,神经元算法再次衰落,被一种计算机时代更有效的机器学习工具所替代,这种状况持续了十年左右,直到计算能力增加了三到四个数量级,这时研究者发明了图形处理器加速器。
但是数据仍然在丢失,尽管互联网里充满了数据,但是大多数数据都没有被示踪,尤其是图像里的数据,于是就需要训练神经元。这也正是斯坦福人工智能教授李飞飞所研究的,“我们的视觉来源于大数据改变机器学习的工作模式,数据驱机器学习。”她在一次采访中解释。
2007 年,她启动了 ImageNet 项目,在免费网站上收集了超过一千四百万被示踪的图像。2009 年和 2010 年,她都举办了年度激励竞赛,并且发表了在计算机视觉上取得的研究突破。
2012 年 10 月,两个 Hinton 的学生赢得了这个比赛,我们也因此清楚地看到了深度学习目前能够到达的程度。
在此之前,大众已经因为另一个事件了解了深度学习。2012 年 6 月,Google Brain 发布了一个创意项目的结果,现在这个项目已经广为人知,叫做“猫的实验(cat experiment)”。这个实验引起了极大的共鸣,并在社交网络上迅速走红。
这个项目真正探索了深度学习领域中一个尚未解决的重要问题——“无监督学习”。目前几乎所有商业使用的深度学习产品都是“监督式学习”,就是使用标记的数据(如从 ImageNet 收集的图像)来训练神经网络。而“无监督学习”恰恰相反,是给神经网络展示未标记数据,命令其从中寻找反复出现的式样。研究者们希望今后能掌握无监督学习的方法,因为这样机器就可以从目前还无法使用的庞大的数据集中进行自我学习和了解世界,就像人类婴儿一样,机器可以完全通过自身来对世界进行感知。
在猫的实验中,研究者给一个超大神经网络(1000 台计算机)展示了从 YouTube 视频上随机截取的一千万个未标记图像,让计算机软件自行运作。当“杂质”清除干净后,研究员检查最高层级的神经元,自然就能发现其中一个神经元有力地反馈出猫的图像。Google Brain 的项目负责人 Ng 说:“我们还发现一个神经元明显地反快出人类的面部图像。”然而,结果也令人疑惑。“比如,我们没有发现任何一个明显反映汽车图像的神经元。还有很多神经元反映的事物我们无法辨别。所以这项工程还很艰难。”
这个实验引起了轰动,但是无监督学习仍然未被完全破解,这是留给未来的一项挑战。
可以想到的是,目前大多数商业使用的深度学习应用都属于那些拥有庞大的可供深度学习运算数据的公司,比如谷歌、微软、Facebook、百度和亚马逊。很多公司正在发展更加真实和有用的聊天机器人来作为自动化的客服代表。
四大技术巨头对深度学习技术的重视
· 谷歌
谷歌在2011年设立了专注深度学习领域的 Google Brain 项目。2012年中期,谷歌将神经网络引进其语音识别产品中。2013年3月,谷歌保留了神经网络开发者 Geoffrey Hinton。如今谷歌正在研发过程中的深度学习项目已经超过1000种,涵盖了搜索、安卓、Gmail、照片、地图、翻译、YouTube和自动驾驶汽车等众多领域。2014年 ,谷歌收购了 DeepMind,其深度强化学习项目 AlphaGo 在三月份打败了世界冠军李世石,成为了人工智能发展的里程碑。
· 微软
2011年上半年,微软在其 Bing 声音搜索和 X-Box 语音指令等商业语音识别产品中使用了深度学习技术。目前,微软在搜索排行、照片搜索、翻译系统等很多领域中使用了神经网络技术。Lee 说道:“其实广泛传递它已有的影响是很难的。”去年,微软赢得了关键图像识别竞赛的胜利,九月份,微软又取得了一个纪念碑式的记录:在语音识别中达到最低错误率6.3%。
2013年10月,Facebook 聘请了法国神经网络创新专家 Yann LeCun 来指导公司新的人工智能研究实验室。 Facebook 每天利用神经网络来翻译超过 40 种语言的大约 2 千万的用户帖子,同时,每天有8亿用户在阅读这些翻译的帖子(几乎有一半的用户不使用英语)。 Facebook 还将神经网络应用于照片搜索和整理中。目前,公司正在研究一项应用于视力障碍人群的功能:为没有标签的照片产生语音标记。
· 百度
2014 年 5 月,百度聘请前谷歌 Google Brain 项目创建者之一的 Andrew Ng 来领导它的研究实验室。作为中国领先的搜索引擎和网页服务网站,百度也在其语音识别、翻译、照片查询、自驾驶汽车等等领域中使用神经网络技术。在中国这样一个倡导“移动先行”战略而其主要语言汉语又较难输入进电子设备的社会中,语音识别是发展的关键所在。百度谈到,在过去的18个月里,使用语音接口的用户数量翻了三番。
像 IBM 和微软这样的企业也正在帮助企业客户在企业运营时中适应深度学习类应用(如语音识别界面和翻译服务)。而像亚马逊网页服务这样的云服务商则为想要发展自己软件的客户提供便宜的 GPU 驱动的深度学习运算服务。大量的开源软件(如 Caffe、谷歌 TensorFLOW、亚马逊 DSSTNE)本着开源的原则,已经加速了它们的创新过程,从而使更多的研究者可以不经过漫长的同行审阅同意就能立即发表他们的研究结果。
很多非常激动人心的深度学习应用都在医学领域。我们已经了解到,神经网络在图像识别方面贡献非凡。安德森·霍洛维茨基金(Andreessen Horowitz)基金的生物投资单元负责人,斯坦副教授 Vijay Pande 观察到:“放射科、皮肤科、眼科等很多科室的医生所做的大部分事情其实就是图像识别工作。”
· 深度学习与医学
初创公司 Enlitic 利用深度学习来分析CT和MRI等医学影像检查。公司总裁 Igor Barani 此前是加州大学旧金山分校的射线肿瘤学教授,他说道,Enlitic 在判断肺部结节是恶性还是良性方面比四个放射学专家做的还要出色。(这项工作还未得到同行审阅,该技术还未得到 FDA 的认可。)
默克制药公司(Merck)正在尝试使用深度学习来加速药物的发现,它在旧金山新创建了一个制药公司,名叫 Atomwise。在这里,神经网络可以检验出一个由数千分子构成的药物的3D图像,从而预测该药物是否适合抑制病原体的致病机制。很多这样的公司正在使用神经网络来试图改进人类已有的成果,还有一些公司则试图做人类还无法实现的工作。
27岁的计算生物学博士 Gabriel Otte 创建了他的公司 Freenome。该公司的目标是从血样中检测出癌症,他们可以检测出血液中细胞死亡时释放出的 DNA 片段。通过深度学习,他命令计算机寻找无细胞DNA和一些癌症之间的相关性。Otte 说道:“我们将看到还未被癌症学家发现的新的癌症特征。”
安德森·霍洛维茨基金考虑对 Freenome 增加投资时,负责人 Pande 给Otte 五个盲选样本,其中两个正常,三个为癌症样本,Otte 的判断全部正确,最终Pande决定对其进行投资。
一个放射学专家一生也许能看到几千张医学影像,但是一台计算机可以观察数百万张影像。所以 Pande 说:“也许图像问题交由计算机来解决更好的想法其实并不夸张。因为计算机可以处理完一个人一辈子也无法完成的庞大数据。”
技术的潜在优势不仅仅在于更好的精确性和更快的分析速度,还有自治化的服务。当技术变得越来越标准,每个病人最终都可以受益于此。
我们感受到的深度学习最深刻的影响恐怕是当它以我们从未想过的方式被嵌入到其他人工智能的工具箱中进行使用的时候。比如谷歌的 DeepMind 已经完成了惊人的工作:将深度学习和一个名叫增强学习的相关技术相结合,他们用着这两项技术创造出 AlphaGo,去年三月,它打败了围棋世界冠军,这被公众视为人工智能技术的一个里程碑。不同于在1997年打败了国际象棋冠军 Garry Kasparov 的IBM 深蓝(Deep Blue),AlphaGo 在编程中,并未使用决策树方法,或是评价所在位置的方程方法,或是 if-then 规则。DeepMind 的总裁 Demise Hassabis说:“AlphaGo是通过自我博弈和观察大型专业比赛来学习如何下围棋的。”(在训练中,AlphaGo 自我对战次数高达百万次)
一个游戏也许更像是一种人为设定,但是 Hassabis 认为,相同的技术可以应用在真实世界的问题中。今年 7 月,谷歌的报告显示,使用与 AlphaGo 相似的技方法,DeepMind 可以将谷歌数据中心的能耗效率提高 15%。Hassabis 说:“数据中心中大约有 120 个不同的变量,你可以调节风扇、打开窗户、关闭计算机系统电源来减少电力消耗。你可以从传感器、温度计等等中获取数据。这很像围棋游戏,通过反复试验和试错,你将学习到怎样做是对的。这个方法非常棒,每年可以节约几千万美元,同时也保护了环境。因为全世界的数据中心消耗了很多能源,我们希望在更大范围使用这个技术,甚至推广到国家电网系统中。”
聊天机器人都是非常不错的,但是它将变得更加酷炫。
推荐阅读: