如今,通过苹果Siri和Google Now这样的工具,我们可以通过声音控制智能手机,完全不用触摸手机就可以搜索网页、获取简单问题的答案以及更新在线日历。至少在某些时候,这些工具还是能达到广告中宣传的效果。但是在使用台式电脑时,语音控制仍然遥不可及。
现在很多计算机内置了语音识别软件,可以让用户控制一些操作,但是Zachary Pomerantz的目标不止如此,通过一项名为JuliusJS(一个帮助软件开发者打造用于网页浏览器的语音控制应用程序的工具)的开源项目,他希望形成一个适用于台式电脑的Siri等应用程序的全新潮流。
如今,当开发者向网页应用程序添加语音控制时,很少有能做到这一点的好办法。现代的浏览器内置了部分语音控制工具,但它们总是依赖某种远程服务(比如由Google Now的服务),在一个远程服务器上进行基础语音处理,这涉及到整个网络的流媒体语音,经常会降慢处理速度。
JuliusJS能解决这个问题,它是一个在浏览器内运行的代码库,使用的是常见的网页标准,几乎可以在任何一台机器上运作。使用这个代码库,开发者可以打造从网站导航及将语音控制添加到游戏中的工具,还能做一些没人想过的事情。
Pomerantz是编程学校Hack Reactor的“专职黑客”,他是在今年早些时候尝试语音控制软件时萌生了这个想法。“我想改进语音识别的状况,并了解它如何工作,”他说道。他正尝试创建一个简单的程序,可以听到特定的关键词并忽略其他输入,就像Google Now一样,你说出“OK Google”时它才会活跃起来。这个概念被称为“关键字定位”。
他遇到的问题是,需要远程语音服务的工具往往会过快地陷入困境。他真正需要的是一种完全在浏览器内进行语音处理的方法,而不需要通过互联网发送音频。所以,他决定修改一个现有的开源语音平台Julius,将其从C编程语言转为JavaScript(网页浏览器的通用语言),而没有创建一个关键字定位系统。要做到这一点,Pomerantz使用了另一个名为Emscripten的开源软件自动翻译大部分的原始代码,然后,他写了一些额外的代码,以确保网页和该平台能很好地配合。
到目前为止,JuliusJS只能识别样本字典内的一些词语。程序员如果想要更多,他们就必须扩大软件的词汇。但这是一个开源项目,还会继续生长。
Via Wired