雷锋网 AI 科技评论按:智能语音作为人工智能领域技术比较成熟的细分方向之一,对于初创企业来说,是其进入人工智能领域的入口之一,然而从市场上来看,这一赛道的头部企业国外如谷歌、苹果,国内如 BAT,因其资本优势以及先发性的技术沉淀,对该市场有较强的垄断性,因而初创企业要想在仅剩不多的市场份额中求生存或者分一杯羹,技术实力是关键之一。
对于去年才成立的深声科技而言,不遗余力地深耕技术,也是其在这一赛道中突出重围的命门所在。就在刚落幕不久的 Blizzard Challenge 2019 国际语音合成大赛上,深声科技就倚仗其在智能语音技术上的扎实积累,首次参赛就在一众老牌选手中脱颖而出,一举斩获亚军,成为本届比赛中的一匹黑马。
图源:深声科技
作为语音合成界最具权威性和影响力的国际赛事,Blizzard Challenge 对于该领域的关注者而言并不陌生,例如语音界的领头羊之一科大讯飞就频频报道过其在该赛事中取得的成绩,并自该赛程首次于 2005 年举办后的第二年开始就一直参赛至今。
除科大讯飞以外,在Blizzard Challenge 的历届赛事中,既有来自微软亚洲研究院、IBM研究院、阿里巴巴、搜狗等知名企业的团队,也不乏英国爱丁堡大学、英国剑桥大学、美国卡内基-梅隆大学、日本东京大学、新加坡南洋理工大学等顶级高校的身影。Blizzard Challenge在该领域的影响力,可见一斑。
而今年,Blizzard Challenge 首次以中文作为主任务,同时以罗振宇脱口秀风格声音作为合成样本,以故事、百科、诗词等文本为合成形式,除此之外,还加上了英文混读、儿化音等偏门难点任务,堪称 Blizzard Challenge“史上最难”赛程。不仅如此,今年的Blizzard Challenge 更是史上最火爆的一届,入围队伍达到 24支,与去年的10支队伍足足翻了约1.5倍。
面对这一“史上最难”赛程以及以科大讯飞等老牌厂商为首的 24支队伍,深声科技能够以稍低于科大讯飞的成绩拿下亚军完成在 Blizzard Challenge 上的精彩首秀,具体表现又是怎样的呢?
注:Blizzard Challenge 2019最终排名。官方分别用26个字母作为各参赛队伍的代号,其中字母“A”为原声(即罗振宇本人录音);字母“I”为深声科技语音合成系统代号;“M ”为科大讯飞语音合成系统代号。图源:深声科技
据悉,Blizzard Challenge 2019比赛共有四项指标:MOS(自然度)、PER(拼音-不包含声调-错误率)、PTER(拼音-包含声调-错误率)、Sim(相似度)。
在其中的PER和PTER两项指标中,深声科技的错误率为 0.092、0.103,均低于冠军科大讯飞的0.098、0.107,这就意味着深声科技在系统可懂性方面,表现比本届比赛的冠军还要更胜一筹。
而MOS自然度指标则是本次比赛中最重要的一项指标,由所有测评人员对音频的总体效果进行打分,满分为 5 分。最终,深声科技的合成效果平均 MOS 分为4.3分,稍低于科大讯飞的 4.5分,与真人原声的4.7分更是仅差0.4分。
比较遗憾的是,深声科技在第四项指标Sim上的表现较为一般,得分为 3.3 分。不过据深声科技透露,这主要是因为其在5月初提交比赛数据时,使用了表现不稳定的多说话人声码器技术,导致了合成声音稍稍偏离了真人原声。目前,该问题已彻底解决。
更值得一提的是,在本次比赛中,深声科技使用的参赛系统实际上是其当时已上线的商用系统,而不是还无法走出实验室的试验性技术。一个商用系统能够在比赛中取得如此成绩,深声科技所拥有的语音合成技术实力是相当雄厚的。
综合成绩排名第二,四项指标其中两项甚至超过冠军,深声科技这份亮丽的成绩单背后所倚仗的技术实力不可小觑,那具体都有哪些呢?我们下面来看。
深声科技在智能语音这条赛道上的起步虽然较晚,但是在技术的沉淀和积累上却很强势。虽仅成立一年多,深声科技就自主研发出了一整套领先的智能语音技术。
从核心技术上来看,深声科技有七大核心技术,包括声音定制、语音分离、语音合成、智能语音降噪、音频处理算法、语音识别和语音转换。其中以语音分离为例,能够基于其领先的端到端深度学习方法,在保留原始音频信号中所有细节的前提下,能够同时完美地将单通道歌曲中人声和伴奏声分离出来。
图源:深声科技官网
而进一步从语音合成的整条链路上来看,深声科技也是业内少有的拥有语音合成全链路技术能力的公司,主要包括语料库制作、文本分析模块、高表现力的语音合成后端、高性能声码器。
针对语音合成语料库制作这一语音合成流程中复杂而困难的环节,深声科技自主研发的数据标注平台,采用自动标注+人工校正的模式,在确保高质量的前提下,大大节省了语料库制作成本和时间周期,使深声能够快速响应客户声音定制化的需求。
深声科技的文本分析模块包含文本正则化、G2P(文本转音素)和韵律分析,借助深度学习技术,准确率相比目前行业的主流方法有较大的提升,即便在遇到多音词如“打的”,“美的”,“朝阳”时,也能轻松辨别。
深声科技研发的高表现力语音合成后端采用了可控的端到端技术,无论在情感的表现力上,还是在合成的准确率、音质稳定性、音色可控性上都超越当前行业的主流方法。
深声科技研发的高性能声码器结合语音算法和网络模型,在提升合成效率的同时,解决了噪声、沉闷、机械感强等音质问题,合成出清晰流畅的、与真人相媲美的声音,不仅能够满足大规模的实时语音交互应用的需求,还能满足对音质长时间使用场景的严苛需求。
在智能语音乃至整个人工智能行业近年来都一路高歌猛进的背景色中,于去年3月份成立的深声科技显得有些低调。实际上,早在去年7月份的时候,深声科技就获得了小米科技的数千万天使投资,成为小米投资生态中的一家黑马级企业,而它今年在 Blizzard Challenge 2019 中所获得的佳绩,算是给小米投资做了一次很好的回应。
靠技术立足的深声科技,自然离不开一支强悍的技术团队的支持。据介绍,深声科技的核心成员都是来自中科院、中山大学、华南理工、日本早稻田大学等海内外顶级院校的博士、硕士人才,并且其中大部分都曾就职于腾讯、网易、YY等国内知名互联网企业,无论是技术实力,还是行业经验,在行业内都是领先的。
有了资金、技术、团队等的加持,深声科技目前在智能客服、有声读物、新闻播报、语音助手等场景的落地上也取得了一些成果,获得了包括金山、小米及其生态链企业等客户的高度评价和口碑。
同时,雷锋网 AI 科技评论还获悉,深声科技在不久后还将会推出更加重磅的应用落地。届时,大众也将会获得一个更加深入认识和了解深声科技的好机会,大家拭目以待!
对于深声科技智能语音技术感兴趣的读者,可前往深声科技的官网 http://www.deepsound.cn/ 或微信小程序“深声AI”亲身体验。
【CNCC 2019来了!】
10月17-19日,CNCC 2019 将在苏州金鸡湖国际会议中心举办,本次会议由中国计算机学会 (CCF) 主办,苏州工业园区管委会承办。
CNCC 全称为中国计算机大会,是我国计算领域规模最大、规格最高的学术、技术、产业交融互动的盛会。该会议创建于 2003 年,每年于不同城市举办,至今已成功举办十五届。会议形式包括大会特邀报告、大会论坛、技术论坛、特色活动及展览展示等。大会也将会对本文提到的语音合成领域的最新趋势动向准备了丰富的内容。
如果你是个人参会,可以:
•通过官网cncc.ccf.org.cn参会报名
•申请论坛,作为论坛主席或讲者参会
•申请资助参会,申请者限边远地区高校青年教师或学生