人工智能领域大神燕乐存点评卫报记者使用Torch-RNN自动生成文本
如果深度学习变得和网络一样大,那就是时候进一步关注它了。
Google DeepMind人工智能项目,AlphaGo,使用机器学习击败了它的人类对手,但这仅仅是个开端。图片:Ahn Young-joon/AP
世界正在慢慢的被机器学习重塑。我们不需要再教电脑如何去执行复杂的任务,如图像识别和文章翻译:相反,我们建立了一个让它们学会自主学习的系统。
“这不是魔术”Google一位资深的调研科学家Greg Corrado说道。“它只是一个工具,但它非常重要”
如今机器学习最有效的应用,被称为“深度学习(deep learning)”,在大量数据的基础上,建立一个称之为神经网络的复杂的数学结构。它的设计类似于人类大脑的工作方式,1930年时,第一次描绘它自己的神经网络。但只在最近的3,4年中,电脑才变得足够强大,去有效的使用它。
Corrado说他认为这是技术的一大改革,如因特网一样。“在因特网技术问世之前,如果你在计算机科学方面工作的话,网络是一群奇怪的人做的奇怪的事,现在呢,无论是工程师,软件开发员,产品设计员,还是CEO,他们都知到互联网连接如何塑造他们的产品,塑造市场,以及他们可能会建立的东西”
他说同样的转变正在机器学习中进行。“最终它会成为每个人都可以做一点的事情。他们不需要做细节方面的事,但需要了解"如果有这方面的数据可以学习的话,或许我们可以做到。”
Google自己在该想法的成就,是一个叫TensorFLow开源软件,它构建于可用的基础上,该公司的研究人员试图了解他们创造的强大模型,那些已经拥有它的工程师,将它瓶装起来,并用于图像分类或让人们通过声音进行搜索。
机器学习仍然是一个复杂的“野兽”,远离简化场合,除非有着强大的编程背景,不然你自己在神经网络方面能做的东西很少。但我想把Conrado的观点放入测试中:如果未来机器学习会变成了“每个人都可以做点什么”的事情,离这天还有多远?
想法和研究的分享非常开放,是现在机器学习领域的一个好现象。Google开放TensorFlow给每个人使用时,写到:“通过分享我们认为世界上最好的机器学习工具箱,是希望创造一个开放的标准,以便交流研究想法并将机器学习应用于产品中。”它并不是孤立的:每一个主要的成就都可免费使用和建模,这意味着有可能通过一个笔记本和网络连接,建立一个简单的机器智能。这也正是我所做的。
跟随技术专家Robin Sloan的脚步,我在119mb的卫报负责人队列中训练了一个简单的神经网络。这并不容易,尽管有详细的说明书,我仍然发了数个小时将建立计算机到这个点,一个可以从文本语料库中开始学习的点。一旦到达这个点,我意识到我严重低估了机器学习所需要的时间。在运行该训练软件30分钟,进行到整个过程的1%时,我意识到我需要一个更快的计算机。所以我又发了几个小时在Amazon的云端学习配置服务器。一个小时需要发费$.70,这意味着整个进程需要在8个小时内完成。
我并不是唯一研究该技术的人,早在几年前,Google本身就经历了一次变型。从图片搜索到声音识别,大量的搜索击垮了其中一些最大服务,并且从根本上让它重生。现在,它想让剩下的世界跟上脚步。
6月16号,Google宣布在它的Zurich工程办公室新建了一个专门的机器学习团队,Zurich工程办公室是Google开发商在US最大的聚集地,为了在三方面领导研究:机器智能,神经语言处理,机器感知,Google建立了一个能够思考,倾听,和看见的系统。
但计算机科学家充分了解,如何争论神经网络,将其用于区分演讲或产生迷幻的图像时,他们没有意识到,所有的一切都是为了解它是如何实际工作的。Google DeepMind的部分工作,是研究一个非常著名的算法,它为什么,或者怎么变得如此优秀,该算法在古代亚洲围棋游戏中战胜了一个世界冠军。并且,新的机器学习团队跨着研究和产品发展的边线,试图建立一个可以应对前所未有挑战的新算法。
我自己在这方面尝试的效果不理想,结果是不完美的。Google的机器学习解决了两年前我们称之为“几乎不可能”的问题时,我几乎都还不能将一个句子连在一起。
跟随Sloan的例子,我把模型设置成自动完成发动机。我能够写出理论卫报社论前面一半的句子,系统开始作为一个输入回馈它,并且问道下面它会怎么想。不喜欢这个?那就问它要其它的回答。
我尽量让它从平行宇宙阅读卫报编辑社论。使用“星期四在欧盟停留的重大投票是”作为出发点,并且尽量让系统去想象接下来的句子会是什么:
·星期四在欧盟停留的重大投票更黑暗在1970s
·星期四在欧盟停留的重大投票是一个合法反对的人在2015
·星期四在欧盟停留的重大投票是歧视和失败者的第一种方式,宣布政府不是一个单一的宪法保守政策。
·星期四在欧盟停留的重大投票是在宣言的承诺。
这太糟糕了,当然这也糟糕:如果我能训练机器写出一个令人说服的卫报社论,或者是从卫报中提取一个令人说服的句子,在两天中,复制说明书,摆弄复杂的软件—甚至在我成功之后仍然无法理解。然后,我工作的安全性会比它要小得多,每个人的工作都会比他们更不安全。
我并不是第一个摔倒在该障碍的人:在六月之前,Atlantic’s Adrienne LaFrance尝试了一个更小的实验,同样使用Sloan的配套原件,但由于她的语料库的大小而受到了阻碍。五千万的单词,是她从Atlabtic中写出的总数量,这不能完全满足机器学习,但在卫报中20m的设置写出了更好的社论。(我在每个实现的故事中运行系统,如果有一个一致的音调和风格——领导列,都写在纸的声音上,它学习的效果会更好)。
在同一时间,表面上的结果并不起眼,但,它是一种惊人的东西。我使用的包裹叫做Torch-rnn,它被设计用来训练特征级别的神经网络。也就是说,在训练之前,它甚至都不知道世界的概念,让它自己有一个具体的词汇或者理解英语语法。
现在,我有一个知道所有的这些事情模型。并且它会教自己大量的卫报社论。
它仍然无法真正的创造意义。这是有道理的:卫报社论对现实世界有意义 ,而不是作为在它自己权利内现有词汇的集合。所以为了适当的训练神经网络写出一篇卫报社论,你也要告诉它世界的信息,然后你会有更少的周末项目和更多的启动场地。
所以看到涉及“深度学习”启动场地的数量扶摇直上并不奇怪。过去的几年里,每一天我的收件箱中,都能看到一个或者两个,从“在线个人风格服务”,使用深度学习来给人们匹配服装,到“知识发现引擎”致力于在自己的游戏中击败Google。
2008的原型始于“x but on a phone”,2014的原型是“uber but for x”,今年是“doing x with machine learning”。Google似乎很乐意领路,不仅通过它们的产品,还通过制作剩余生态系统依靠的工具。
但为什么是现在?Corrado有个答案。“在1980s和1990s就做了深度学习的数学研究,但直到现在,计算机运行仍然太慢了,我们不知道数学效果怎么样”
“计算机正变得更快更便宜的事实,是实现机器学习的因素这一”现在,你自己进行机器学习,就像是尝试通过手动编码的TCP/IP协议来上网。
但是这正在改变。它会变得更快,更简单,更有效,并且逐渐从只有工程师知道的东西,变成整个发展团队都知道的东西,然后整体技术产业化,最终到每个人。进行该过程时,它会改变很多其它的东西。
·AlphaGo 教会自己如何去赢,但是没有人类它将过时。
via:Google says machine learning is the future. So I tried it myself