录音转文字，听道可能成为速记终结者吗？

听道董建成速记语音识别

作者：游瑞

2015/12/02 09:14

在很多重要的场所或者对话过程中，需要用到速记，它的特点就是记录速度快、效率高，可以用比汉字快三倍以上的书写速度来记录别人的对话。但速记毕竟是个技术活，不是人人都可以轻松掌握的一项技能，另外专业速记人员不好请（现场速记略贵）也是一个不争的事实，所以在很多场景下，将现场录音转交速记人员转录成文字成了不二之选。

那么将录音转录为文字，能不需要人工吗？将语音转化为文字，对目前的技术而言并非难事，很多语音助手都有较高的语音识别度，就连微信也能直接将语音翻译为文字，就更别说那些能支持语音输入的输入法们，所以要将将录音转为文字，是可以让机器完成的。

90后创业团队听道在做就是这个，用创始人董建成自己的话说就是“我们自己的‘初心’就是让更多需要技术来解决问题的人能用得上高新技术，而不是让技术成为摆设，有困难的人还是得不到解决，所以我们定位是在技术层到应用层的企业“。录音转文字，听道可能成为速记终结者吗？

雷锋网：语音识别技术是自己做的吗？

董建成（公众号：ting dao）：目前采用的语音识别技术虽然不是自己做得，但也不是哪一家的，而是同时选用了多家语音识别的技术。之所以不自己做，是这块如果没有个一二十年的积累，肯定是做不出来的，尤其是对于小团队来说，第一没这个能力做，第二即便现在去做，也做不过别人。

选择多家技术的糅合也不是没有章法的，经过研究对比，我们发现每个引擎（语音识别技术）都有自己擅长处理的一个领域，有的善于处理KTV环境下的录音，有的对大马路上的录音处理效果好，不同环境下，不同领域内的词汇偏重，都会影响最终的转录效果。

降噪部分我们自己做，有单独的算法，不但降噪还能自动把每句话是时间点精确地自动地切分好，提高识别效率，不过音源肯定是清晰度越高越好，因为即使有降噪，也会降低识别准确度，音源清晰发音清晰最好

我们还能通过对录音环境的甄别，领域的划分，对比结果后选择最好的文字呈现给用户，但是对于口音暂时没有自动区分。引擎与最终结果的选择，是系统自动完成的。

雷锋网：让电脑自己去做对比选择，这是怎么做到的？它如何去判断这个录音是在KTV里面录的还是在大马路上录的？它又怎么能知道这个录音说的是科技领域内的东西还是娱乐圈里面的？

董建成：首先在噪音处理这块，是我们自己做的，所以通过噪音的频谱以及响度可以大概区分出来是处于哪个环境，然后再去初选引擎。

每个引擎会对自动的对自己识别的结果给出一个评分，也就是置信度，分数越高表示结果越准确，所以置信度的高低决定了最终会选用哪个结果。

最终的结果还会跟用户修改后的文字进行对比，一并收纳进大数据库。若下次再在遇到同样的结果时，就能直接在我们这边直接给出更符合用户需求的文字。

雷锋网：你们跟这些引擎之间有协议吗？

董建成：引擎方提供SDK，其中包含了使用协议，而我们则是直接使用他们的API做了一个应用，即便是用于商业化也没有问题，微信就是这样做的。

雷锋网：你们的转化率如何？

董建成：主要是出于两点考虑，第一个就是之前所说的通过不断地收集修改前后的文字对比，来完善最终文字。另一点的话，就还是通过选择多种引擎来提供最为合适的结果。

录音转文字，之所以转化率低，不是因为引擎不行，而是录音这一块出的问题会比较多。很多引擎说自己的转化率能达到95%或者99%，其实也没错，不过前提是录音清晰的情况下。

用微信说话的时候，一般都是拿着手机讲，距离比较近，所以转录效果非常好。而正常录音的话，一般距离较远，环境也会更加复杂，这样一来就容易造成录音不清晰，噪音比较大。

未来，我们可能推出自动定向的录音麦克风，采用四点麦克风阵列，谁在说话时就调整阵列，只收集说话人的声音，算法我们已经验证过了，可行，效果也可以。

录音转文字，听道可能成为速记终结者吗？

雷锋网：与录音宝如何竞争？

董建成：录音宝做到比较好的地方是能实时录音，能够显示录音时的地址，按时间轴存储文件，一件转录文字，也可以一键导出音频与文字。但录音笔实际上是偏重于日常生活，对于处理工作中一小时，两小时的长时间录音的话，它就不是那么方便。比如说，在一段很长的录音文件中，中间可能有一段录音是不需要的，但是却没办法删掉，只能导出来之后，手动修改。

而在我们的网页版上，就能在导出之前勾选你说需要的或者不需要的内容。而且能够就这每一句话听录音编辑修改转录出来的文字。另外一个就是，我们转录出来的文字是带有时间节点的，可以直接生成字幕格式。比如说，你要发布一个视频，那么你就不要再去配字幕了，直接就能用。

我们的定位主要是专业软件，能够多平台同步处理，只要录音文件上传到了云端，那么用户无论是在家还是办公室，只要打开这个软件，就能继续编辑，这样的话，就能不受限于工作地点与电脑。我们不是纯做技术，我们是底层技术研发和解决用户实际问题之间的桥梁，是为了将现有的技术真实用来解决用户实际需求的。

对于文字的编辑这块，我们也有独特的地方，比如说对每一句话的起点与终点划分，十分准确，而且是修改哪一行，就能播放哪一句声音。如果在文字内容修改时按回车，不仅文字内容会拆分，音频内容也会自动分段，依据是语音与文字对应的频率，还有时间点。其他基本的文字编辑功能与技巧与常有的WORD差不多。

雷锋网：你们会代替速记这个工种吗？

董建成：将来发展是有可能替代速记的，但会很久，目前是帮助速记。

就目前的平台处理速度而言，一小时的文件，需要10分钟才能出稿。以后，会采用分段处理的方式，将一段录音分解成无数小段，同时转录，虽然会消耗服务器大量的计算能力，但能保证一小时文件一分钟左右完成转录。

小结

从成本身而言，现在人力成本太高，请一个速记人员到现场除了要按字付钱之外，还得额外给出勤费，按日计算的。时间成本也高，现场速记可不是当场结束就能当场给出的，速记人员还得回过去校队一次，要不然很多东西是看不懂的，而录音给速记人员去转录文章的话，1小时的录音最快也得花一小时转录出来。

机器转录的话，目前基本上都是免费的，以后收费也可能是在精度，处理速度与存储空间上做文章，所以不用太担心。时间现在差一点的一小时文件可能上传，转录，导出算一起不到20分钟的样子，未来会更快。至于，转化率的问题，人工速记的精度并高，还是需要用户再次校对，那么随着机器转录的置信度的提高，需要用户校对的地方也只会越来越少。

人工速记定会被机器取代，这一点是可以确定的，但这个速记终结者是不是听道，就不要一定了，或许是引擎们的可能性更大。