微软上线语音评测功能：基于Azure云构建，赋能口语学习的教与学

微软语音评测口语学习

2020/06/22 12:48

近年来，随着人工智能技术的不断成熟，企业数字化转型步伐的加快，AI的触角逐渐深入到各个场景，使人类的生产生活变得更加智慧化。在听觉方面，智能语音技术成为各大科技公司们攻坚的重要领域。

一家老牌科技巨头微软，在语音合成技术、语音识别技术上深耕多年，面向全球合作伙伴开放和落地其技术能力，提供多种智能语音解决方案。

5月中旬，在2020微软Build开发者大会上，微软上线了语音评测功能，该功能基于Azure语音服务Speech-to-text（语音转文本）构建。用户可以上传跟读文本和音频对发音人的语音从准确度，流利度和完整度进行评测。在教育领域，尤其是口语学习方面，因具有高识别准确率、拟专家打分的高一致性，可以让口语学习的教和学更加高效方便。

近日，微软亚太研发集团智能语音团队接受了雷锋网等媒体的线上采访，对微软智能语音评测技术的优势和应用场景等内容进行了详细介绍。

微软亚太研发集团云计算与人工智能事业部产品总监丁秉公、微软亚太研发集团云计算与人工智能事业部资深产品经理马莉莎参与了本次采访。

语音评测的四个维度

微软亚太研发集团云计算与人工智能事业部资深产品经理马莉莎表示，目前语音评测市场需求的考量方向主要有四个维度：

专业性。
实时性。
稳定性。
可定制性。

对于专业性，微软语音评测的每个语言从10万小时以上的母语大数据中学习当地语言纯正口音发音，针对各年龄段多维度精准打分，从文章——句子——词——音素四个环节，层层评估，拟专家团打分一致性高。

微软上线语音评测功能：基于Azure云构建，赋能口语学习的教与学

马莉莎提到，语音评测的专业性考量对比的是和母语专家评测的一致性。业内通用皮尔森相关系数来反映两个序列线性相关程度的统计量。范围在-1到1之间，1表示完全相关，-1表示完全相反，0表示乱序无关，数值越大表示相关度越高。微软语音评测在一致性上达到了0.75，与母语专家水平接近。

对于实时性，微软语音评测支持音频上传流式处理，也就是边朗读边处理，读完立即反馈评估结果。

对于稳定性，微软语音评测基于NLP模型构建模糊匹配文本，针对垂直领域的特定场景的容错率有良好的包容性，漏读、错读、重复读不影响打分有效性与准确性。

对于可定制性，ASR基础模型与微软在语音领域的全面技术能力，可以实现个性化评分标准，可适配口音、适配噪音环境以及适配年龄层等。

据了解，微软语音评测除了支持英语评测外，还可扩展支持全球 40 多个国家和地区的语言评测，广泛适用于教育领域解决方案的合作伙伴、APP开发者以及语言学校、培训中心、教育机构、考试中心的各种语言学习、口语练习和考试等场景的开发。

最大的技术难点在于多点平衡

语音评测能力，在教育领域主要的受众人群包括老师、学生，通常被广泛应用于教师评估、作业练习和语言学习场景中。那么，对于口语学习，教育用户的痛点是什么？语音评测最大的技术难点又是什么？

对此，马莉莎表示，对于学生来说，他们的痛点在于非母语口语学习。学生们在学习新语言的过程中，如何及时准确地给学生的发音进行反馈，让学生随时随地更方便地联系对于提升口语学习的有效性至关重要。

对于学校和教育机构来说，他们的痛点在于老师的资源有限，如何把现有的优质教师资源拓展到一个稳定的教学系统里。因此，老师需要这样一个能力，不仅能模拟母语专家打分，还能够学习到老师们的评测方法，让老师们可以使用评测高效地一对多给学生提供在线和线下的指导和帮助。

教育用户的这些痛点，对语音评测技术提出了更高的要求。马莉莎认为，语音评测最大的技术难点在于语音识别技术本身，首先是多语言的理解和识别，不同的打分场景，包括噪声环境、不同年龄段学生的发音情况等都要进一步优化。

其次就是要达到包容性和鲁棒性（注：robust，技术术语，此处可理解为稳健性或抗变性）的平衡。既要模型做得好、识别好，还要能够动态、实时构建，对大模型达到高实时地调用，而这些需求加起来就是难上加难了。

“在语音评测上我们的基础储备非常坚实，才能把方方面面做到比较好，以一个综合的体现呈现给用户，所以我们不是难在一个点上，而是多点平衡。”

据悉，积极探索数字化转型和新教育模式的好未来，也是微软语音评测功能的客户之一。好未来AI科学家胡翔宇表示：

"如何快速而有效地针对不同学生进行口语评测是我们在线上线下的英语教学中遇到的一大挑战。微软智能语音服务为好未来内部以及我们的合作伙伴提供强大的实时语音评测能力。根据我们的测试，微软语音服务的发音测评功能更好地适配了我们的收音环境，并且具备更高的一致性，更加贴近专家的评估结果。"

基于Azure云构建的一种能力：算法、数据、算力

微软亚太研发集团云计算与人工智能事业部产品总监丁秉公介绍，一般来说，我们看AI技术主要看三个方面：算法、数据、算力。从这三个方面来说，微软的语音评测功能有自己独特的优势。

在算法层面，微软在智能语音领域深耕多年，其语音识别已经达到人类的水平，错误率在5.1%左右，正是有了这个算法基础，所以在语音识别延伸的应用——语音评测方面能够比较有信心。
在数据层面，依靠微软在语音方面的多年积累，通过将近10万多小时母语的数据进行训练，最后学习到当地比较纯正的口音。
在算力层面，语音评测所有的技术都是基于微软Azure云构建的，Azure是全球拥有数据中心最多、覆盖区域最多的云，可支撑用户大规模的计算需求。同时，Azure符合欧盟GDPR（《通用数据保护条例》）标准，保护用户的数据安全性。

实际上，微软语音评测不是一个具体的产品，而是基于Azure云构建的一种能力。即以微软Azure为平台，将微软在人工智能领域30年的研究成果，开放API给合作伙伴、独立软件开发商、系统集成商，为他们提供认知服务之上的能力，从而进一步做出适合各自领域的方案。

微软上线语音评测功能：基于Azure云构建，赋能口语学习的教与学

“可以打一个比方，如果微软云是平台的话，认知服务就是这个平台上提供给用户智能的部分。就好像一个人有眼睛、耳朵、头脑，认知服务就是赋予想要在微软Azure云上获取这些能力的用户，给他们提供扩展能力”，丁秉公说道。

“所谓授之以鱼不如授之以渔，我们提供这样的能力或者工具之后，便于合作伙伴基于垂直领域里丰富的场景定制或开发相应的解决方案以及产品，他们可以直接调取这样的能力，而不需要从头做任何人工智能方面的研究。”

据了解，目前，微软语音评测的API有丰富的接口和参数，支持高实时率多并发调用。如果第三方想调用API，在前期评测环节是免费的，而进入集成开发阶段，会根据标准的Speech-To-Text（语音转文本）服务的价格，按照评测音频的时长来计费。

另外，丁秉公还提到，微软Azure内部有独立的Microsoft Education团队，专门针对教育领域提供不同的解决方案。除了语音评测外，Azure云在教育领域还有很多已落地的应用。

例如，疫情期间的“停课不停学”，让微软远程协作平台Microsoft Teams被学生用来作为远程学习的工具，在教育领域被广泛使用。
其次，在个性化教育方面，语音评测作为Azure上的服务，提供了个性化的打分能力，使在平台上使用这个功能的用户享受到属于他自己的独特服务。
第三，Azure的语音技术可以帮助合成AI老师，帮助教育机构生成课件，解决教育资源稀缺的问题。
除此之外，语音技术还可以帮助一些视障和听障学生更好地学习。

马莉莎认为，当前全球的教育行业都在进行数字化转型，疫情的到来加速了教育行业的数字化和线上化。通过让AI和云计算进一步赋能教育行业，可以为学生提供多元化个性化的服务，打造一个更加智能的生态环境。

微软在智能语音技术方面深耕多年，曾推出过多款耳熟能详的语音产品，如微软小娜（Cortana）、微软小冰、Skype等，此次上线语音评测功能也是“顺水推舟”之举。语音评测市场，BAT和科大讯飞等科技巨头争相布局，微软这匹“黑马”的加入，势必会让语音评测战场的厮杀更为激烈。（雷锋网雷锋网）