谷歌开源语音命令数据集，帮助开发者搭建基础的语音交互

谷歌语音识别

作者：三川

2017/08/25 08:14

谷歌的工程师们经常被问到这么个问题：

怎么上手用深度学习做语音识别或其它音频识别，比如关键词或指令？

虽然，现在出现了些很优秀的开源语音识别系统，比如 Kaldi，就能把神经网络作为其中的一个模块。但其高度复杂性，让它们并不适合作为解决简单任务的指南。更重要的是，对于新手而言，免费、可公开获取的数据集并不多，经过预处理的、或适合于简单的关键词检测的也很少。

为解决这些问题，谷歌的 TensorFlow 和 AIY 团队创建了 Speech Commands Dataset，即“语音命令数据集”，并基于它向 TensorFlow 添加训练和推理的示例代码。

雷锋网消息，谷歌在今日宣布开源该数据集。

对 30 个命令短语，该数据集有 65000 次的长约一秒钟的发音。这来自数千个不同的人向 AIY 网站提交的贡献。它以 Creative Commons BY 4.0 许可发布，随着新贡献的添加，该数据集在未来会不断扩大。

建立这个数据集的目的，是帮助大家为应用创建基础但有用的语音交互，比如“Yes”、“No”、数字、方向等词语。谷歌也已经将开发这一数据集的基础设施开源，并希望看到更多人借此创建更多版本的数据集，尤其是针对冷门语言和应用。

下载预建的 TensorFlow 安卓演示 APP，打开 “TF Speech”，就能体验谷歌基于该数据集开发的识别模型。另外，你可以通过 TensorFlow.org 的音频识别 tutorial 学习怎么开发你自己的模型。