本周,国内AI圈值得关注的事情有:FPGA 2017最佳论文出炉,雷锋网对得主深鉴科技进行了专访;人工智能”进入国家战略层,AI公司最关注的是什么?AWE 2017本周在上海举办,海尔美的联手百度DuerOS,共同推出“会说话的家用电器”;中国人工智能学会AIDL第二期【人工智能前沿讲习班】日前在北京中科院自动化所举行,北京大学王立威等教授参与讲课;
国外AI圈新闻有:Ian Goodfellow 离开OpenAI,重回谷歌大脑团队;Google Cloud Next' 17云计算大会在美召开,李飞飞提出AI民主化四大战略;Facebook 开源新一代 AI 训练服务器 Big Basin,速度提升一倍。
以下是本周新闻概述:
近日,深鉴科技的 ESE 语音识别引擎的论文在 FPGA 2017 获得了唯一的最佳论文 ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA。该项工作聚焦于使用 LSTM 进行语音识别的场景,结合深度压缩以及专用处理器架构,使得经过压缩的网络在 FPGA 能够实现超越 Pascal Titan X GPU 一个数量级的能效比。论文中所描述的 ESE 语音识别引擎也是深鉴科技 RNN 处理器产品的原型。
针对 FPGA 2017 最佳论文以及深鉴科技,雷锋网采访了深鉴科技 CEO 姚颂,主要讨论了深鉴科技的这篇论文的核心灵感来自于哪里、这篇论文主要在哪些方面有着较大的突破、Deep Compression 和 ESE 的原理与作用、如何有效结合 Compressing CNN 和 Intepretating CNN 发挥它们的势能、如何保证公司处于有利地位等多个问题。以下为采访摘要:
论文灵感来源:韩松之前做过一项名为 EIE (Efficient Inference Engine)的研究并发表在 ISCA 2016 ,该项研究主要针对于卷积神经网络里的全连接层,但并不能适应语音识别这样的复杂场景。因此在结合实际应用后,我们设计出一套更为实用化的 ESE 架构,针对语音识别和 RNN 做了非常多的修改,并且将它实用化了。
论文突破:软件方面,我们提出了 Load-balance-aware pruning。硬件方面,在整个硬件架构过程做了一个重新设计,能够支持多路用户,也能够支持 RNN。
从哪几方面提高了它在语音识别中的效率:该方案的核心就是它能支持在大规模用户的情况下大幅降低延迟;其次使得功耗明显降低,同时使延迟会变得更低,使得语音识别的精确度得到更进一步提升。
在3月5日上午李克强所做政府工作报告里,首次出现了“人工智能”这一词汇,这给外界发出重要信号:人工智能这项技术,开始由国家背书了。
加快培育壮大新兴产业。全面实施战略性新兴产业发展规划,加快新材料、人工智能、集成电路、生物制药、第五代移动通信等技术研发和转化,做大做强产业集群。支持和引导分享经济发展,提高社会资源利用效率,便利人民群众生活。”
虽然只出现了一次,但这给外界发出重要信号:人工智能这项技术,开始由国家背书了。我们可以预见到,各地政府在这一“中央精神”指导下,将会投入丰富的资源建立本地人工智能平台和公司,更多传统行业公司也会更加大胆地拥抱AI技术,而对于已有的AI公司来说,或许会因此获得更多的扶持和资源机遇,又或许会因为更多玩家的涌入,面临更加凶险的竞争。
为了加速百度人工智能战略布局及人工智能产品化和市场化进程,就在三周前,百度集团总裁兼COO陆奇发出通告,宣布将原度秘团队升级为度秘事业部,直接向其汇报,这在当时可算是科技圈的重磅新闻之一。
一个月还未到,度秘事业部就有了大动作。在刚刚开幕的AWE 2017中国家电及消费电子博览会上,度秘宣布与海尔、美的两大家电巨头达成战略合作协议,并推出系列的智能家居产品。在度秘事业部刚成立的时候,陆奇就表示:「凭借语音与对话技术的优势,百度在引领新一代人机交互平台上拥有巨大的机会,自然语言和其他智能交互方式有可能出现在从手机到家居的每一个设备中。」,此次与两大巨头合作,是度秘在智能家居领域布局的一个重要信号,同样也是两个家电巨头向「智能化」发展的重要标志之一。
在与海尔合作方面,海尔与度秘DuerOS达成了战略合作,将DuerOS对话式人工智能操作系统加入到海尔产品序列,并且在现场发布了双方合作的首款搭载DuerOS的冰箱——海尔馨厨系列冰箱。
在与美的合作方面,美的介绍了他们的「美的智慧家居科技有限公司」,也就是原美的智慧家居研究院在智能家居方面的布局,紧接着又介绍了M-Smart智慧生活开放平台。随后,发布了美的与度秘深度合作打造的「智能语音盒」。
中国人工智能学会AIDL第二期【人工智能前沿讲习班】日前在北京中科院自动化所举行,本期讲习班的主题为【机器学习前沿】。北京大学教授王立威带来了题为《机器学习理论:回顾与展望》的主题报告,主要对机器学习中关于泛化能力的几个重要理论进行介绍。
北京大学教授王立威博士的主要研究领域集中于机器学习,在包括COLT, NIPS,JMLR, PAMI等权威会议期刊发表论文60余篇。2010年入选AI’s 10 to Watch,是首位获得该奖项的亚洲学者。2012年获得首届国家自然科学基金优秀青年基金,新世纪优秀人才。任NIPS等权威会议Area Chair,和多家学术期刊编委。在主题报告结束后,雷锋网(公众号:雷锋网)AI科技评论与王教授做了短时间交流,探讨了1 人工智能现在能做什么、还不能做什么、和可能的突破口又在哪里,2 云计算已经将计算力提升到一个以前不敢想象的高度,甚至已经远远高于样本的获取能力,那么构建样本是否会成为未来的研究重点3 数据对于算法而言处于怎样的地位等多个问题。
为了做好云服务,这两年谷歌一直很拼。砸钱、招人、出产品,谷歌攻城略地的三板斧总是屡试不爽。3月9日凌晨的Google Cloud Next' 17云计算大会上,四大天王(Diane Greene、CEO Sundar Pichai、Alphabet 执行主席 Eric Schmidt 、云机器学习与人工智能首席科学家李飞飞)加上近十位合作企业的高管站台,似乎也多了一分人多势众的感觉。
在全长两个多小时的开场Keynote中,谷歌把大部分时间留给了合作企业,这些来自零售、娱乐、电信、金融、电商等多个领域的巨头逐一介绍自家业务是如何使用云服务的:
为普及谷歌云计算,使人工智能真正受惠于民众,李飞飞在演讲中讲了“democratizing AI”(AI民主化),及其四个发力方向:计算力、算法、数据和人才。
针对AI民主化,雷锋网也从更好的计算力、更通用的算法、更海量的数据、更优秀的人才这四个方面进行了梳理。
更好的计算力(Computing)
机器学习计算引擎Cloud Machine Learning Engine实际上早在去年就公布了测试版本,这个基于TensorFlow搭建的平台能够帮助开发机器学习模型。在李飞飞的理解中,人工智能技术以往需要精通编程才能顺利驾驭,如今借助现有的框架,用户可以将基础架构和模型搭建全权交给谷歌云进行大规模处理,把更多的精力放在“做什么”而不是“怎么做”上。这也是谷歌实现技术普及的一个过程:降低用户的使用门槛,把更多的基础内容交给更擅长的谷歌团队来做。
更通用的算法(Algorithms)
在Keynote上,李飞飞就发布了一系列通用模型API,这也是让AI变得更加“亲民”的一种方式。用于图像识别的Vision
API实际上早已经开发了一段时间,而视频分析的Video Intelligence
API才是新推出的一大亮点,它可以自动识别视频中的物体,让视频实现可搜索。
用李飞飞的话来说,视频是计算机视觉里面的“暗物质”,因为它无法像图片一样实现便捷的搜索,但Video Intelligence API现在可以帮助开发者开发出从视频中搜索实体的应用,并标记出对应物体的出现位置。雷锋网(公众号:雷锋网)了解到,除了提取数据,API还允许在对变换的场景打标签。
更海量的数据(Data)
不论是算法训练还是系统测试,庞大的数据量对于人工智能而言毫无疑问都非常宝贵。在与一些高校老师接触的过程中,雷锋网也了解到高校目前面临着“数据荒”问题。高校研究目前都是采用公开数据集,主要目的是对算法的可行性进行测试。但这些数据集比起企业级别的数据实在是九牛一毛。现在不少高校教授同样身兼企业的首席科学家,数据不得不说是一个非常重要的考量。李飞飞此前加入谷歌,或许也是看中了谷歌在数据的强大实力。
更优秀的人才(Talent)
为了让人工智能的普及范围更广,单从企业的基础设施入手自然不够,人才的培养与合作同样重要。谷歌发布 Advanced Solution Lab的目的,也在于充分利用谷歌人才的实力,帮助其它企业解决复杂的机器学习问题;此外,该计划还将赞助一些尝试解决困难问题的研究者,让他们与谷歌一同解决——自然,采用的服务也都会是谷歌生态下的系列产品,而这一举措又能够更好地吸引越来越多的用户转投谷歌麾下。
据雷锋网AI 科技评论消息,Ian Goodfellow 已于今年 3 月份从 OpenAI 重回谷歌。
目前 Ian Goodfellow 的 LinkedIn 个人资料已经新增了一列,头衔为谷歌「Staff Research Scientist」,而 Twitter 上的资料显示为「Google Brain research scientist」;不过维基和 Quora 上的资料暂时还没有更新。
美国当地时间 3 月 8 日,Facebook 正式宣布了新一代的服务器设计方案——“Big Basin”,它是 AI 训练系统 Big Sur 系列的继承者。这些使用英伟达的 GPU 作为处理核心的服务器连接起来,形成一个巨大的 AI 训练网络,这使得 Facebook 的产品能够进行物体和面部识别、实时文本翻译、以及理解并描述图片和视频中的内容。
Facebook表示,与 Big Sur 相比,Big Basin 能够训练比之前的规模大 30% 的机器学习模型。根据在标准神经网络模型上的测试,Big Basin 还可以通过压缩训练 AI 系统需要的大量数据集,将训练速度提升一倍。
在正式推出面向大众的产品之前,Facebook 会通过 Big Basin、Big Sur 这样的服务器对这些 AI 系统进行训练。正是因为 Facebook 的持续投入,才让这一切变得可能。