资讯 业界
此为临时链接,仅用于文章预览,将在时失效

对话鄢志杰:语音行业十五年老兵的沿途风景

作者:李诗
2018/09/14 18:12

根据《2018中国智能语音行业前景研究报告》,2017年中国的智能语音市场规模已经达到了105.71亿元,比2016年增长了70%,而2018年这个规模预计将继续扩大三分之一,达到159.7亿元。语音行业红红火火。

站在2003年,鄢志杰选择进入中科大语音实验室攻读博士时,行业留给语音人才的就业岗位极其稀缺,当时像微软亚洲研究院这样跨国公司的研发机构,每年在语音方向上也就一两个校招名额。当时的他,自然难以想象15年后,语音技术会如此火爆,像水电这样的基础设施一样融入每个人的生活。

扎根语音行业十多年,他在语音识别、语音合成、语音交互等多个领域都有了深入的研究,熬过了长达近十年的技术瓶颈期,见证两次语音技术的大突破,终于等到人人都能明白语音交互的概念和未来。鄢志杰作为目前阿里语音团队的带头人,聊过很多关于语音技术的现状和未来,不过他这十几年的个人经历,他在中科大语音实验室、微软亚洲研究院语音团队、阿里巴巴机器智能技术实验室的经历,却很少为人所知。雷锋网这篇独家对话文,正是想让鄢志杰谈谈他一路走来的风景。

对话鄢志杰:语音行业十五年老兵的沿途风景 

(鄢志杰,阿里巴巴达摩院机器智能技术实验室语音交互首席专家,长期从事语音交互智能的研究、产品化和商业化工作。毕业于中国科学技术大学语音实验室,获博士学位,2015年加入阿里巴巴集团。在加入阿里巴巴集团之前,就职于微软亚洲研究院语音团队任主管研究员。其研究领域主要包括语音识别、语音合成、声纹、语音交互等。在语音及文本识别领域顶级学术期刊及会议发表多篇论文,长期担任语音领域顶级学术会议及期刊的专家评审,并拥有多项美国及PCT专利。其研究成果被转化并应用于阿里巴巴集团、蚂蚁金服及微软公司多项语音相关产品中,目前是IEEE senior member。曾荣获中国科协百名基层科技工作者称号。)

站在2003·选择

2003年,鄢志杰本科毕业,他选择升入中科大语音实验室,攻读博士学位。鄢志杰师从王仁华教授,是最后几届关门弟子。王仁华教授是语音领域大牛,不仅精通语音技术,还熟谙语音技术的商业化,当时他已经是科大讯飞主要创始人之一、科大讯飞董事长。 

站在2003年,鄢志杰或许想不到语音行业会有现在这么火热。他回忆道,当时,在语音合成方面,机器人说出来的话只能做到听懂,没办法合成长段的、流畅自然的语音。在语音识别方面,只能在简单任务上做得比较好,例如数字串识别。像今天的智能语音助理,能听懂用户说的话再去执行任务,这样的应用在当时是难以想象的。

十几年前,语音不是热门专业,但是在鄢志杰看来,语音是人机交互下一个里程碑,是有趣有用的技术,就值得学。他的导师王仁华教授也非常开放,除了教书育人、在实验室培养学生,也通过人脉将学生们送到海内外各个学校或公司的知名研究机构去访问交流。例如鄢志杰自己,在攻读博士学位期间就先后到微软亚洲研究院和美国佐治亚理工学院的语音实验室访问。要知道,彼时国内做研究、查论文、做学术交流的条件远不如现在这样方便,既没有开源学术社区,学术搜索引擎也还不存在。而这些经历大大的开拓了像鄢志杰这样的学生们的国际视野,也造就了今天国内语音学术界和工业界的一批活跃分子。王老师实验室的弟子们很多都成为了高校科研院所或产业界从事语音交互技术的骨干。

但回到10年前,技术的不成熟使得工业界对语音专业的学生的需求也小。在当时,全世界的就业市场留给语音专业的毕业生的岗位很少,可以说是稀缺,毕业生并不好找工作。只有像微软、IBM这些大公司能够烧钱养活团队,持续在语音领域做技术研发。鄢志杰去到微软亚洲研究院那几年,研究院在亚太范围内每年也就一两个校招博士名额。

鄢志杰说,微软是一家伟大的世界级公司,储备的是世界级人才,微软能提供的平台和视野对做语音交互的人才来说是当时国内最好的。博士毕业后,鄢志杰在微软工作了近7年。回忆起来,他觉得在微软这几年的成长经历,极大的拓展了自己在研究以及工业界思维的广度和深度。在中科大的时候,鄢志杰主要的方向是语音识别,在微软后也做了一段时间语音合成、声纹相关方向,拓宽了领域。由于是研究院,微软研究氛围跟象牙塔式的校园很像,能够让研究员慢工出细活地做一些令人兴奋的技术。

回望2011·突破

回忆起十几年的学习和科研经历,鄢志杰印象最深刻的是语音技术两次大的突破

第一次大的突破在2000年左右,在大词汇量连续语音识别任务上出现了一种叫 discriminative training(区分度训练)的技术,使得语音识别的准确率上了一个台阶,相对提升了大致20%-30%。然后在往后的几年中,就有大量沿着这条技术路线的新方法被提出来。

好景不长,过了几年时间,discriminative training陷入了平台期,一直持续了快十年。2006年,辛顿提出深度学习的概念,深度神经网络研究因此而复苏。2009年,辛顿和他的学生将深度神经网络应用于语音的声学建模上并获得成功。到了2010年前后,微软研究院请来了辛顿的学生前来交流,俞栋、邓力等人将深度学习应用到工业级语音识别系统中,使识别错误率再次降低了20%以上。此后,一直到现在,深度学习方法在语音识别、语音合成、NLP、对话系统等多方面都取得了成效。

回顾这两次突破,鄢志杰说:语音技术从一个个突破到一次次沉寂,总是伴随着一个螺旋上升的过程。今天的语音交互技术已经跨过了“能用”的门槛,越来越多的向“好用”在迈进。 

遇见2015·再出发

2015年,鄢志杰离开微软,加入了阿里巴巴iDST (Institute of Data Science and Technologies)。他说现在回过头来,阿里巴巴最大的特点是落地能力特别强,能够把技术产品化,产品再商业化。几年后,他越来越明白其中的原因:阿里会要求技术人员也懂商业,在做技术选题的时候,把商业作为其中一个维度来思考。鄢志杰认为阿里的商业基因对他做语音交互技术是很好的土壤。

2010年深度学习技术与语音结合之后,到2015年行业已经有了很大的变化,科技巨头都相继推出了各自的语音产品。

鄢志杰加入时,正值阿里巴巴开始严肃地投资语音交互技术(当时“AI”这个词还不像今天这么热)。阿里做语音在国内的巨头中并不算早,但却在恰当的时机入局,完成了对人才和技术的积累,并满足了集团自身的发展的需要。

语音系统、交互系统链条很长,鄢志杰加入后主要做的事情是搭建平台、打基础。从一张白纸起步,也是一件好事,没有历史包袱,能放开了手做,把当时最好的技术迅速产业化,这是后发优势。例如,当时阿里巴巴团队在声学模型上可以没有包袱的做最好的选型,在2015年首先上线了latency-controlled BLSTM 模型,叫 LC-BLSTM 模型,这个模型从学术界研究出来,到工业界第一个上线,只用了几个月的时间。

传统 BLSTM 模型存在latency问题,必须要等到一句话说完了才开始去做解码,得到结果,就造成说完这句话后要等很久才能拿到结果,这当然是坏处,但为什么大家还是那么着迷呢,因为好处是精度特别高,准确程度高。阿里巴巴团队所做的工作就是能够把识别的延迟降下来,使得它能够在边说话就边解码,而不是像以前一样,要等到这句话结束后才能够进行解码,达到一个既快又好的效果。像这样的创新还有很多,阿里巴巴用最短的时间从零搭建出一套完全自主的、业界最顶尖的语音识别系统。

来到2017·达摩院

iDST团队在阿里内部有几次调整,语音在阿里战略的地位也有所变化。

据雷锋网了解,一开始,阿里做语音主要是从阿里内部客服中心的需求来出发的,因为阿里每天淘宝、天猫和支付宝有很多的客服电话,语音识别可以去分析服务质量。当时的语音技术都是通过阿里云输出的,语音技术被视为云计算里边一个不可缺少的原子组件,因此iDST曾被划分到阿里云。鄢志杰回忆道,之前语音团队很多时候都是满足集团各业务的需求。

17年上半年的时候,iDST回到了技术中台,成立了iDST2.0,改名为机器智能技术实验室。当时阿里意识到,语音是一个基础技术,不仅是阿里云一个部门需要,集团内外也都有强烈需求。回到中台后,机器智能技术实验室主要承担了两个任务:首先是对内服务,支持集团内部、蚂蚁金服、阿里巴巴经济体等;然后是对外服务,通过阿里云做商业输出、被生态客户使用。

2017年11月,阿里巴巴 CTO 张建锋(花名行癫)宣布阿里巴巴成立全球研究院——阿里巴巴达摩院,研究领域包括量子计算、人工智能、机器学习、视觉计算、自然语言处理、下一代人机交互等。机器智能技术实验室也划在了达摩院之下,是达摩院在下一代颠覆性人机交互技术和用户体验方面的核心团队,其中包括鄢志杰负责的智能语音交互。

到了达摩院,阿里巴巴集团加大了对机器智能实验室团队的投资力度,团队的规模也上升了一个等级。鄢志杰谈到,如果说过去iDST主要支撑集团各业务部门,到了达摩院,机器智能实验室的角色转换成了技术创造新商业,更多的是去做一些有技术壁垒的东西。

达摩院成立后,吸引了诸多国内外技术领军人物,比如量子计算大牛施尧耘。在鄢志杰的带领下,语音团队也招募到了冯建伟、付强、马斌等行业大牛,形成了一个横跨两岸三国五地的国际化团队,还有了不止一位“老外”成员。

时隔一年,达摩院在探索未来科技的路上成绩斐然:

研发了一款神经网络芯片——Ali-NPU,打破缺芯少魂的被动局面;

研制出世界最强的量子电路模拟器“太章”,成功挑战谷歌的量子霸权

斩获WMT2018国际机器翻译大赛冠军

阿里巴巴电商机器翻译总量日均达7.5亿次

语音团队也将自身的创新更多的与业界分享,在前不久开源了最新的语音识别声学模型DFSMN,将开源数据上语音识别准确率提高至96.04%,并使得全世界的研究者可以在此基础上持续创新。

2018·技术创造新商业

鄢志杰曾谈到,阿里现在的语音技术站在端和云的中间,端就是各类终端,包括电视、汽车、音箱、IoT设备等,云端就是阿里布局的互联网内容和服务。

在2018年3 月底的云栖大会上,阿里云总裁胡晓明在会上做出战略宣布:阿里巴巴全面进军 IoT。这是继电商、金融、物流、云计算之后的一条新的主赛道。计算是心脏,AI 是大脑,IoT 是神经。语音技术作为核心AI技术在阿里巴巴的数字化和物联网布局上是重要一环。鄢志杰认为语音交互智能将成为 智联网设备 与内容和服务的桥梁。

那么,阿里各个部门是如何配合起来发力智能语音+智联网的呢?

首先是阿里云物联网平台。2017年10月,阿里云在杭州.云栖大会上发布阿里云Link物联网平台,提供物联网云端一体化使能平台、物联网市场、ICA全球标准联盟等三大基础设施,已经完成生活平台、城市平台和商业共享平台的的搭建,解决方案覆盖智能生活、智能城市、智能园区、智能农业、智能制造、智慧共享六大行业。然后在终端方面,阿里推出了mesh智能家居开放平台,使所有智能硬件都能统一接入一个网络协议。

智能语音交互与IoT设备结合可以说是一大趋势,雷锋网曾分析,2018年,各大公司都在建立IoT平台,例如:小米IoT开发者平台、阿里云Link、百度“天工”、京东Alpha-IoT、QQ物联平台、微软Azure IoT,这些公司也都有自己的智能语音助手。小米、阿里、百度、微软等已经明确将智能语音+IoT看作IoT平台以及对话式人工智能发展的关键。 

目前阿里已经推出了天猫精灵、荣威智联网汽车、海尔人工智能电视等落地的智能语音产品,除了这些,鄢志杰团队过去一年还在忙于:将智能语音交互带到公共空间

此前的语音交互主要是近场交互或较安静条件下的远场交互,场景局限于拿在手上的手机、安静的室内。鄢志杰团队在扩展室外公共空间场景做了很多努力,并将创新的多模态语音交互技术通过阿里云输出,解决公共空间嘈杂环境下的远距离语音交互问题。

去年10月,阿里云与上海地铁展开合作,首次推出了语音售票概念,并已于今年3月正式落户上海南站供市民使用。乘客只需告诉机器你想去的目的地,就会自动调用云端的高德地图服务,检索完成并自动出票,全程不过数秒钟。

鄢志杰表示,地铁是一个很嘈杂的空间,且会出现多人并排买票的情况,阿里巴巴的解决方案是重新设计了语音交互硬件的麦克风阵列、还添加了光学摄像头来识别说话人,解决这一独特场景的问题。

类似的场景还有很多很多:浙江省100多家法院上线了阿里云智能语音识别系统;今年5月的云栖大会武汉峰会上,阿里云在现场相当嘈杂的环境中成功演示了AI点餐技术;据雷锋网了解,即将召开的2018杭州·云栖大会上,阿里云还将携手肯德基展示智能点餐机体验区......

物联网是一块大蛋糕,虽然巨头都在布局,但是各自的角色还是有所不同,有人在做硬件、有人在做系统、有人在做品类。阿里的特色在于电商,无数的硬件厂商在阿里的平台上销售,他们都可以接入阿里平台,可以获得阿里的语音交互技术;此外,阿里也在做自己的硬件,比如天猫精灵;阿里的线下支付场景更是独一无二,对语音交互也有强烈需求。

虽然目前竞争很激烈,但是鄢志杰认为语音交互技术落地,还是需要找到强场景、要有用户的主动诉求、要有大规模的市场。鄢志杰认为目前市面上的一些语音交互应用噱头成分居多,具备这三种条件的场景其实并不多,需要更多探索。

20XX·人才与未来

在人工智能火热的当下,语音技术作为基础技术,发挥着犹如水、电、煤的力量。各大巨头都在布局这个赛道,争夺人才是攻坚战的第一步。

关于人才,鄢志杰曾谈到,“语音这个圈子实在太小了,大家互相都认识,更多是靠我们自己圈子里的口碑,大家知道你们积聚了一类什么样的人,就能闻到你这个团队的风格,跟他想去做的事情以及做事的方式。圈外人很难说立一块牌子就说我今天要做一个一流的语音团队,所以我们此前的招聘更多还是依靠圈子里的口碑,以高手吸引高手的方式来招聘,虽然我们也做了招聘广告,但很少有人是看了广告直接就来的。”

阿里的语音团队目前承担着很重的职能和责任,但也是一步步成长起来的,这种成长性是能被看到的,去吸引更多想要实现自己的目标的人加入。鄢志杰也开玩笑地说道:“各大公司的语音团队也有不同的特点,有的团队天生大一统,会缺少危机和压力,有的天天赛马,容易关注短期结果,也造成很多重复投资,技术上小打小闹。”

最后,雷锋网编辑请教了鄢志杰对现在语音行业整体的看法。他谈到:“接下来的几年可能会去伪存真。因为过去几年AI太热,会有一些生拉硬拽的所谓的人工智能技术应用冒出来。所以现在我觉得慢慢随着新的资本追逐的热点涌现,AI在慢慢的回归理性。这是一个去伪存真的过程,会有一些AI真正的产生价值的应用通过大浪淘沙留下来,这对于行业的健康发展是有好处的。”

相关文章:

专访鄢志杰:阿里全面进军 IoT,语音交互能做什么、将做什么?

专访阿里 iDST 语音组总监鄢志杰:智能语音交互从技术到产品,有哪些坑和细节要注意?

长按图片保存图片,分享给好友或朋友圈

对话鄢志杰:语音行业十五年老兵的沿途风景

扫码查看文章

正在生成分享图...

取消
相关文章