Alex Graves在《Neural Turing Machines》论文中提到的一句话一直让陈伟印象深刻——“ What is possible in principle is not always what is simple in practice”。也正因此,“知易行难”成为镌刻在陈伟行为模式中的一个准则。
陈伟是搜狗语音交互中心总监,他与搜狗语音团队似乎一直恪守着低调准则:没有准备好不发布、没有成果不发声。9月8日,WMT官方公布成绩:搜狗语音交互技术中心-机器翻译团队提交的中英和英中系统,获得了人工评价指标的双向第一名。
1、
WMT——全称Workshop on Machine Translation——是由来自欧洲和美国的高校、研究机构的研究人员联合举办的业界公认的国际顶级机器翻译比赛之一。9月7 日至8日,WMT2017会议于丹麦首都哥本哈根举行,系全球范围内最具权威的国际评测大赛。
从2006年开始到2017年,WMT一共举办了12届机器翻译比赛,每一届的角逐,都代表着全球翻译最尖端水准的较量。今年不同于以往的地方在于,中译英、英译中的机器翻译部分是今年新添加的项目,属于WNT框架下的第一次。
9月8日,WMT官方公布成绩:搜狗语音交互技术中心-机器翻译团队提交的中英和英中系统,获得了人工评价指标的双向第一名。同时,搜狗语音交互技术中心提交的中译英系统在20个提交的系统中,获得八项机器评价指标中的七项第一,并且获得主要机器指标BLEU(Bilingual Evaluation Understudy)第一名。
据雷锋网了解,搜狗语音识别团队成立于2012年,机器翻译团队成立于2016年。2012年,陈伟刚刚加入搜狗。那时,团队仅仅几个人,主要研究语音识别技术。陈伟称,从2012年到如今,语音能力一直是团队重要的技术方向,围绕语音识别、输入法的结合,现在基本实现一天语音识别的请求次数高达3亿次,属于国内最大的语音APP。
语音之外,围绕搜狗的整体战略,研究自然交互与计算,也是团队目前的重点。基于此,搜狗语音交互团队的重心也会逐渐转移到多模态输入。“除了单独的语音的听、语音识别之外,我们还做了听与说,也就是合成。”
另外,陈伟对雷锋网表示,基于语音的听说能力,搜狗还研发了一些个性化技术——例如声纹识别,判断你是谁,以及是哪类语种、哪种语言,语音分析的能力。
以及,随着手机近场向远场技术的发展,例如音箱、电视,搜狗也具备了自己的麦克风等硬件能力,正是在此基础之上,搜狗考虑将输入法作为人和人交流表达信息的产品,希望用户去做跨语言的交流。
2、
一直以来,随着搜狗语音交互技术的发展,相关硬件产品也逐渐落地,对于互联网公司为什么要做硬件这一点,陈伟也谈了一下他的看法。
第一,看这款产品能够带来哪些价值,有链接就可以抢占更多入口。
第二,现在国内用户对于软件付费的意愿不是很强,通过销售硬件的方式,盈利可能性更高。
第三,用户对于软件、硬件的迁移成本不一样,例如用户对一款智能手表的迁移成本就会比较高,相应的用户黏性一般也也就较强,这是留住用户的一种方式。
第四,当你的软件做到一个非常好的效果情况下,你会发现你的频率很多时候在硬件上,你怎么把体验做得更好,你必须要对硬件有一定的把控能力。
陈伟对雷锋网表示,搜狗语音技术的逐渐公开,内在来讲,经历过一段暗自成长的过程。
时间上,从2012年至2016年,这段时间,搜狗将重心放在服务内容产品、沉淀技术上面,从2016年至2017年,是搜狗语音交互技术密集落地的时间。原因上,陈伟对雷锋网解释称,主要是因为经过足够长时间的沉淀,搜狗语音技术的能力逐渐成熟,在国内已经属于领先了,“于是我们认为有必要将落地产品拿出来。”
“搜狗一直是以技术为重的公司。”开始钻研AI 技术的时间早于阿尔法狗概念火爆的时间,方向上一直尽量将重心聚焦在输入法与搜索两个主产品。
而搜狗将产品真正实现落地的前提之一,就是当时识别技术成熟,并被运用在输入法上。陈伟介绍称,搜狗输入法刚上线时错误率达到了30%~40%,如今降至10%,流量也持续上涨。当语音质量稳定在安静、没有口音的情况下,准确率可以达到97%。
此外,搜狗围绕公司战略逐渐开始业务扩展,比如开始多模态研发、将手写放到搜狗输入法上、自研翻译技术、逐渐围绕交互形成自己的语音助手,以及目前与四维合作的车展设备、与小米电视、创维电视合作的语音交互技术等,都在逐步落地。
3、
技术成熟、产品落地,搜狗语音的下一步在哪里?
语音交互是一个场景非常明朗的状态,搜狗既希望将这项技术能力输出,也希望可以探索出语音交互的真实场景在什么地方。因此,搜狗将刚需场景锁定在车载、智能家居以及可穿戴三个场景,通过与包括小米、创维能较好公司合作深度定制。
2016年8月4日,搜狗推出语音交互引擎“知音”,其后,搜狗打造出“知音OS”语音交互平台,是一款面向手机、电视、可穿戴、车载设备等智能设备的语音交互平台。目前,知音OS已经在小米、魅族、创维、海尔等产品中落地应用。
目前,据雷锋网了解,目前多家人工智能公司均致力于操作系统与开放平台的研发与推广,谈到搜狗的独特性,陈伟称,相比而言,搜狗知音会更开放一些。“搜狗会将自身能力与合作方做更多的深入定制,包括经验与能力层面的交流与交互。相反,其他公司或许相对封闭一些,更倾向于将定制借口掌握在自己手里,输出封闭的解决方案。”
同时,目前真正有能力将语音交互做到闭环的公司少之又少,从前端硬件结构,到后端识别合成、语义理解,再加上翻译,这些能力全部具备的公司并不多。但搜狗所具备的独特优势是,不断进行的产品迭代,可以让搜狗无论从搜索本身形成的知识积累、或是已有产品贡献出的用户数据,均积累成大规模的用户资源,进而将整个交互场景搭建得更为完善。“要将语音交互做到通用是比较难的,更多还是要围绕垂直层面发力。”陈伟表示。
至于知音OS系统的推广时间,陈伟称,目前整个团队正朝大规模推广方向走,但细水长流,还没有确定的时间点,需要等到整个团队建立稳定的吞吐能力、标准化体系、以及最适合自己的场景。“大方向还是由搜狗搭建技能平台,由用户自己去自定义、自定制。”