本周的WWDC大会上,苹果在主题演讲中向我们展示了其最新的AI研究成果。Siri语音助手变得更加聪明了,可以准确理解你的意图;Photos应用无需联网即可实现Google Photos的全部功能;当然,还有专为机器学习而设计的metal 2。自2010年Siri惊艳问世之后,苹果在AI领域便鲜有作为,直至渐渐落后于其竞争对手。这一次,苹果在AI领域再一次走到了前列,而这仅仅只用了一年时间,苹果究竟是如何做到的呢?
从技术的角度而言,苹果的AI经历了三年研发,但前两年苹果始终没能走出窠臼。回溯到2011年,苹果发布了第一版Siri,整个科技圈为之失色。哈佛商业评论惊呼,“Siri是和Mac一样伟大的创新”。与此同时,很多人担忧苹果无意间发明出了天网。短暂的光芒之后,随着大众逐渐接触到这款语音助手,Siri迅速黯然失色,并逐渐暴露出许多缺点。
时间流转,到2014年时Siri已经基本弥补了在识别和理解语音方面的所有问题。但苹果同时也意识到,对Siri的小修小补无法解决它的根本问题,是时候来一场彻底的颠覆了。原始版本的Siri建立在隐马尔科夫模型之上。隐马尔科夫模型是用于对时间序列数据建模的统计工具,可以通过分析手写和语音输入中的时间间隔实现断句。
过去三年里,苹果采用了许多新的机器学习技术来替代和补充隐马尔科夫模型,其中包括深度神经网络和LSTM网络。这些神经网络模型比马尔科夫模型更加有效,且普适性更强。不同于马尔科夫模型的简单学习模式,深度神经和LSTM网络拥有记忆能力,且可以分析上下文,更好地理解语法和标点符号间的细微差别,使分析结果更接近用户的真实意图。
很快,新系统的功能就不再局限于Siri之中了。正如史蒂文·利维(Steven Levy)指出的那样:当你的手机识别出某个近期给你发过邮件但不在你通讯录中的人时,或者当你在“最近使用”列表中快速找到你接下来想打开的软件时,又或者当你的手机向你提醒一个没有记录在日程表中的约会时,其实都用到了新系统中的功能。
到苹果发表WWDC2016大会主题演讲时,其AI研究已经取得了稳步进展。苹果高级副总裁Craig Federighi向与会人群说道:“我们已经能够自动辨别打进季后赛的金莺队,以及在公园玩耍的孩子之间的区别了。”
在WWDC2016大会上,苹果还发布了运行Basic Neural Network Subroutines(基本神经网络子程序)的神经网络API。这个API提供了一系列功能,供开发者们构建用于苹果生态系统中的所有硬件的神经网络。
即便如此,苹果仍然落后于Google和亚马逊。彼时,Google和亚马逊要么已经发布,要么即将发布AI智能家庭语音助手(Google Home直到2016年11月才发布)。苹果落后的主要原因是,它难以招聘和留住顶尖的AI技术人才。人才之所以不愿意留在苹果,则是因为苹果不允许其内部研究人员对外发布他们的研究成果。
多伦多大学计算机科学系教授理查德·泽梅尔(Richard Zemel)在2015年接受彭博社采访时说道:“苹果的保密工作已经到了离谱的程度,外界对它一无所知。”据说苹果甚至不允许他们新招募的AI团队成员在社交媒体上公布自己的职位。
蒙特利尔大学计算机科学教授约瑟夫·本吉奥(Yoshua Bengio)则认为,苹果不可能在置身于AI学界之外冷眼旁观,同时又利用到AI领域的最新研究成果。他说道:“如果苹果不转变态度的话,它将永远落后。”
雷锋网注:苹果AI负责人 Russ Salakhutdinov
好在苹果迅速扭转了态度。雷锋网曾报道,2016年8月,苹果以2亿美元的代价收购了创立于西雅图的机器学习创业公司Turi。紧接着,10月份苹果又从卡内基梅隆大学聘请了AI专家Russ Salakhutdinov。正是凭借Salakhutdinov的巨大影响力,苹果的AI业务才得以走出阴影,重新被同行们所谈论。
2016年12月,Salakhutdinov在巴塞罗那参加神经信息处理系统大会时对外宣布,苹果将开始发表他的研究成果。这意味着苹果将重新与学术界建立联系。
不久后,苹果兑现承诺发表了《通过对抗训练从模拟和无监督的图像中学习》一文。这篇论文重点研究了使用模拟图像训练机器视觉系统的缺陷。论文指出,虽然模拟图像比照片更容易用于教学,但学习得来的结果在真实世界中将失去效力。为了解决这个问题,苹果采用了一种被称作生成对抗网络(GAN)的深度学习系统,让两个网络相互竞争。其中一个叫做生成器网络( Generator Network),它不断捕捉训练库里真实图片的概率分布,将输入的随机噪声(Random Noise)转变成新的样本(也就是假数据)。另一个叫做判别器网络(Discriminator Network),它可以同时观察真实和假造的数据,判断这个数据到底是不是真的。通过这种方式,研究人员既可以充分享受用模拟图像训练网络的便利性,又避免了训练出来的网络在真实世界中失效的问题。
2017年1月,苹果再进一步,加入了Facebook、Google、IBM和微软组成的AI战略合作组织。该组织致力于构建AI研究领域的道德伦理、透明度以及隐私准则,同时推动组织成员间的研究与合作。接下来一个月,苹果又大幅扩充了它在西雅图的AI办公室,在两联广场租了两层楼,并雇用了更多员工。
苹果公司的机器学习总监Carlos Guestrin在接受GeekWire采访时说道:“我们正在努力寻找对AI和机器学习感兴趣的人才,寻找热衷于研究和思考,并能把想法运用到实际产品中的技术人员。”
到2017年3月,苹果已经取得了重大进展。在旧金山举行的EmTech峰会上,Salakhutdinov展示了苹果的AI研究进展,探讨了从如何使用“注意力机制”更好地描述照片内容,到如何用深度学习算法结合Freebase和WordNet等知识来源中的内容,从而使AI更加智能和高效等话题。Salakhutdinov说道:“如何将先前的所有知识纳入深度学习,对我们来说一项巨大的挑战”。
上个月,苹果对外宣布将研发一种用于处理AI任务的定制化芯片,苹果内部称这款芯片为Neural Engine。一旦Neural Engine芯片研发成功,那么Salakhutdinov所说的挑战将简单得多。不同于Google将处理AI任务的繁重计算转移到云端,用TPU统一处理的方式;苹果习惯于将运算负载分散到CPU和GPU上。
Neural Engine未来将作为处理AI任务的独立组件,释放出CPU和GPU宝贵的计算能力,从而延长电池续航,提升设备上搭载的AR功能,同时让Siri变得更加智慧,甚至有可能超越Alexa和Google Assitant。
即使没有Neural Engine芯片,苹果最近在AI领域取得的进步也令人印象深刻。自去年的WWDC大会以来,苹果先是发布了一款API,大幅加强了研发力度;随后又从全美顶尖的大学挖来了顶尖的AI专家,同时抛弃了以往的保守策略,加入行业合作组织,并最终发布了一版更加智能的Siri。苹果这一系列举措让我们有理由相信,明年的WWDC大会必将更加疯狂。
via engadget 雷锋网编译