雷锋网按:本文来源“声学在线”,作者茄子。
引语:亚马逊的Echo大卖掀起了一股语音智能的热潮,语音交互技术成为炙手可热的时代宠儿。在日新月异的科技领域,眼看则人工智能将要引领一番新的革命,互联网巨头和科技创业公司都纷纷入场。新时代的商业规则蕴含着新的机遇,对于双方而言,这都是一次重新洗牌的最佳窗口期。
这一年来,几乎语音行业内的大小公司都在做一件事,那就是试图建立由自己主导的语音生态产业链。在这个产业链中,产品制造商,技术服务商,平台提供商和内容服务商组成整个产业链的生态。可以说,谁的生态系统最完善,未来谁就将分得更大的市场份额。大势当前,几乎所有的语音技术公司都开放了其智能语音平台,给硬件开发者,应用技能开发者提供了语音交互能力,也招徕更多的玩家进入到他们创建的生态系统之中。
开放平台的主要功能,就是赋予硬件或技能应用获得“能听会说,更智能”的能力。目前,各大科技公司都纷纷开放语音能力,意欲吸引更多的玩家入场,下文笔者将详细分析比较各大智能语音开放平台。
百度DuerOS开放平台
DuerOS是百度推出的对话式人工智能操作系统,即智能语音交互平台。DuerOS的技术架构包含“对话服务”和“技能框架”两大基础协议。两大协议连通起来的对话核心系统、智能设备开放平台和技能开放平台,构成了完整DuerOS的智能生态系统。
图为DuerOS 2.0系统构架
智能设备开放平台面向传统硬件厂商和开发者输出软硬兼备的多层次解决方案,包括个人版、轻量版、标准版、参考设计等多样化解决方案,能够低成本、方便灵活地满足各个类型厂商和开发者不同层次的需求。例如,软硬一体化的智能语音交互开发解决方案SoundPi,集成全方向唤醒、声源测向、定向拾音、噪声抑制、混响消除、回声抵消、远场语音识别、语义理解、语音播报等多项技术。技能开放平台拥有丰富优质的AI内容资源,包括自有的10大类、100余种原生对话技能,支持接入第三方资源和内容,如音乐、有声、新闻、娱乐等,显著降低了开发成本。
DuerOS的核心层是对话系统,它之所以所以能够有好的听清、听懂效果,主要归功于三个方面:数据多、技术深、内容广。所谓的数据指的是百度拥有庞大的知识图谱、需求图谱、网页图谱、地理信息图谱及用户画像,技术则指的是十余年里百度所积累的自然语言处理、对话控制、对话管理、自然语言生成、搜索等技术,而内容指的是百度拥有的超过10000个信息垂类内容。
阿里AliGenie语音开放平台
AliGenie语音开放平台是由阿里人工智能实验室(AI Labs)推出,主要包括精灵技能市场、硬件开放平台、行业解决方案三大部分,全面赋能智能家居、新制造、新零售、酒店、航空等服务场景。
图为AliGenie语音开发者基本构架
面向硬件品牌商和方案商,例如比如音箱、电视、玩具、OTT盒子、投影仪和汽车等,AliGenie开放平台将提供语音交互技术、自然语言处理能力、云服务系统、开发工具包和一站式软硬件及量化标准。针对个人和行业应用开发者,将提供包括语音唤醒、语音识别、声纹识别、语意理解、语音合成五大核心语音能力的开发者套件,内容提供者使用内容接入套件、即可快速创建语音技能;应用开发者使用自定义技能组件,可定制各类技能。阿里巴巴推出行业的语音解决方案自然带有阿里的零售服务业基因。对于线下零售、航空候机、酒店客房等应用场景,AliGenie开放平台推出了垂直行业解决方案,例如店铺精灵,酒店精灵和航旅精灵等,这些个性化的语音助手将成为服务业的得力助手。
腾讯云小微语音开放平台
腾讯云小微于2017年腾讯「云+未来」峰会上正式发布,分为三个部分,Skill开放平台,硬件开放平台和小微客服机器人。
图为腾讯云小微基本构架
腾讯云小微的Skill是指它为各种各样的设备提供智能语音对话的能力和内容;硬件开放平台是一个能将语音交互能力输出给第三方硬件厂商的平台,即云小微将语音唤醒、语音识别、语义分析、信令收发以及众多的内置资源及服务,如音乐、天气、导航等核心能力提供给智能音箱、智能电视、智能玩具、OTT盒子等传统硬件领域的合作伙伴,实现用户与设备、设备与服务之间的语音联动能力;小微客户机器人可以帮助用户提高效率,降低人力成本。用户需要导入业务领域知识库信息,建立机器人知识信息基础,通过逐步调优,使得机器人机器人实现常见问题的自动应答。
作为网络社交的巨头,腾讯不仅拥有海量的视频、音乐的内容资源,还拥有云端亿万用户的资源,腾讯云小微从一开始就拿到一副好牌。如何在平台之争中胜出,就且看鹅厂的战略策略了。
科大讯飞致力于智能语音及人工智能核心研究和产业化十八年,是国内最大的智能语音上市公司。讯飞开放平台致力于为开发者打造一站式智能人机交互解决方案。目前,开放平台以“云+端”的形式向开发者提供语音合成、语音识别、语音唤醒、语义理解、人脸识别、个性化彩铃、移动应用分析等多项服务。
思必驰的DUI(Dialogue User Interface)开放平台是以D-对话为核心的一站式交互定制平台,覆盖多应用场景和第三方内容资源,内置语音技能库,为物联网、移动互联网和互联网的开发者,提供单项技术服务和一站式对话交互定制解决方案。作为一个全链路智能对话开放平台,DUI提供的,不仅是基于思必驰智能语音语言技术的对话功能,更包括开发者在定制对话系统时所需要的综合服务,如GUI定制、版本管理、私有云部署等,让开发者可以完全依据需求随心所欲定制对话交互系统。DUI开放平台拥有青囊系统、天机系统、紫微系统、玲珑系统四大系统。
云知声的开放者平台以方案为入口,基于特定应用场景打造智能语音交互应用的模版。例如智能电视方案、智能汽车方案、音乐搜索方案等。为开发者提供一个智能语音交互系统的完整而便捷的开发环境。这些方案类似于一个个开发模版,开发者创建应用时可以为自己的应用选择合适的方案,开发者的应用就获得了该方案中所配置的技术服务和内容服务。云知声是一家专业的语音交互提供商,在移动互联网、智能家居、可穿戴设备、车载导航、医疗、教育、呼叫中心等领域有丰富的经验。
出门问问推出的AI开放平台其通用版本也是向开发者和硬件厂商免费开放的。非申请或邀请制,只需登陆平台网站注册就可立即下载集成SDK,拥有全栈式语音交互技术整合,平台工具操作简单,适配多场景,且产品集成厂商可根据自身产品需求,自主针对各自产品进行个性化的功能开发,出门问问通过产品获得流量、数据,而产品则能获得AI技术赋能。
Rokid的开放平台语音服务包含Rokid技能开发工具和Rokid语音接入。Rokid技能开发工具帮助开发者为所有搭载Rokid开放服务的设备开发有趣的技能,实现用户各式各样的语音交互需求。Rokid语音接入能够为配有麦克风和扬声器的联网硬件设备开启Rokid开放服务所提供的智能、可扩展的语音能力。并且,其100%的硬件技术和70%的代码将全部开源。
语音能力的技术指标是什么?可以说语音识别率的高低是决定用户体验的最直观的一项,而各平台的语音识别率都能达到90%以上,因此已经难以成为评判好坏的决定性因素。在传统的技术领域中,专业性具有不可替代的统治地位,但现在的语音识别领域已不是一枝独秀的时代。
科大讯飞、云知声、思必驰是几家专注于语音识别技术的公司,依靠垂直语音技术领域,长期盘踞主流语音市场,拥有先发优势。这些科技创业公司在语音领域深耕多年,在业界有多年的人脉和资源的积累。人工智能时代,智能语音作为AI最先落地的突破口,迅速成为全球互联网巨头关注的焦点和角逐的战场,所以,科大讯飞、云知声、思必驰也纷纷转为AI全栈公司。当然,也有类似声智科技、三角兽等语音技术公司坚持定位技术方案提供商。
随着BAT进军AI语音领域,转为全栈的语音技术创业公司、传统语音技术公司的不可替代性也受到了不可忽视的打击。作为互联网公司的BAT虽然入场较晚,但是不缺少财力的投入,并且凭借着互联网行业的大数据等资源发展自家的人工智能技术,迅速抢占智能语音市场。其中百度最早布局,以“All in AI”的战略思维,集中火力发展AI产业,今年全资收购KITT.AI,把KITT.AI的语音能力和自然语言处理能力融入到百度平台中;阿里也不甘落后,照搬亚马逊模式,先推出天猫精灵,接着开放AliGenie开发者平台;腾讯坐拥内容与社交用户资源,一直以后后之势切人市场,腾讯云小微平台的底层技术来自于拥有庞大数据的微信。
在语音产业的技术赛道上,目前,很难说哪一家拥有压倒性的技术优势。从这个角度说,让更多的开发者进入到自己的生态系统之中,也是开放平台的一个重要预期。除了构建平台,各大公司也将投资研究作为战略布局的一项重要内容。比如说,百度发布普罗米修斯计划,将开放超大规模对话式AI数据集、鼓励跨学科合作,并通过100万美元的基金用于鼓励和培养对话式AI领域的优秀项目和人才;阿里投资达摩院布局科研市场;思必驰也表示将拨出2亿基金,用以扶持平台上优秀的开发者、优秀应用案例和创业项目。
结语:在智能语音领域,评价的指标已经变得非常多元,实力的划分也广受争议。在智能领域内的第一梯队究竟是具有先发优势科技公司?还是占据着雄厚资本和资源的商业巨头?也许只有时间才能给我们答案。