本文来自出门问问叶顺平、王政的投稿。
叶顺平,出门问问工程师,主攻语音搜索、语音合成领域。
在谷歌2015年Q3财报电话会议上,CEO皮查伊(“劈柴”)大力强调谷歌在未来会持续加大对机器学习和人工智能方向上的投入。
今年10月份,在中国,谷歌自己,而非其风险投资部门(Google Capital和Google Ventures),刚刚在中国投资了人工智能创业公司“出门问问”,这在谷歌的投资史上很少见。
其实,结合这家公司的核心技术-人工智能语音交互技术以及谷歌在人工智能上的某些动作,这轮投资顺理成章。
无独有偶,这一年中,微软加大了对小冰、小娜的投入,苹果加强Siri的等人工智能产品的研发,Facebook,亚马逊…国内,百度邀人工智能领域顶级专家吴恩达加盟,加大研究院组建力度,推出度秘、小度机器人...
人工智能和基因相关技术、纳米技术被称为21世纪最有前景的技术,可谓吹了很久。但为何偏偏这一轮,巨头加倍投资?
一方面我们可以说是巨头们怕在这一轮投资热潮中落后,豪赌未来;但更重要的原因是,“从感知到认知”,人工智能的“机器学习”理论出离“纸上谈兵”的阶段,可以被真地应用到各方各面了。
“机器学习”等新潮词早在一二十年前提出,但不同以往的是,学术理论终于有了被实现的资源基础。近期由于硬件的发展与大规模分布式计算的成熟,使得之前曾经遇冷的机器学习,重新获得学术界与工业界的注意。而“机器学习”相关算法也确实没“丢人”,在解决一些领域中的问题时表现很优异。比如这几年炙手可热的语音识别技术,就因为“深度学习”的广泛使用,有了约30%的改进幅度。而DNN(Deep Neural Network,深度神经网络)、LSTM(Long - Short Term Memory,长短期记忆人工神经网络)等算法,在语音识别、语音合成、甚至语义理解等方面也得到了越来越多的应用,对各项技术都有或大或小的改进。
人工智能(Artificial Intelligence),即AI。机器学习(Machine Learning)作为人工智能的一部分,是对能通过经验自动改进的计算机算法的研究。一般,机器学习分为监督学习、半监督学习和增强学习。主流算法“监督学习”类似于学生在老师指导下学习并成为正直有用的人,人工智能在工程师的指导下成为可控有用的程序。
要看人工智能的机器学习算法是不是鼓吹,还要看它是否可以提高生产效率,或者彻底解放劳动力。如某个名人所说:“92年中国缺吃少穿,创业要解决的问题是把那些生产出来,2015年社会有极大的浪费,创业要解决的是效率的提高。”
以Google为例,这个有着超过BAT市值总和的互联网巨头的主要产品搜索、邮箱都使用了机器学习算法。
首先是搜索。在用户搜索时,谷歌会记录用户搜索、点击行为,并将记录纳入大数据。此时,使用了“机器学习”的搜索引擎系统能够习得“特定搜索行为之下,哪些网页更相关”,从而使搜索结果更优。另外,在用户搜索行为中,语音搜索的比例正逐渐增高,而语音搜索过程使用的语音识别服务有大量的“机器学习”算法。
语音识别的基本原理是将信号处理成片段,然后利用声学模型和语言学模型,把声音信号在线解码,找出最匹配的、概率最高的文字序列。声学模型和语言学模型训练是提升识别率的关键。各家的语音识别系统在训练声学模型时多采用的名为RNN(Recurrent neural network,时间递归神经网络)和DNN的神经网络算法,而在训练语言模型的时多采用统计学习算法和RNN。
除了搜索,谷歌的Gmail邮箱也没少使用“机器学习”算法。垃圾邮件让人讨厌,而使用了机器学习算法的Gmail已能够很好的分辨出垃圾邮件。除了自动分辨,用户的手动标示也可让反垃圾邮件的机器学习系统进化,更好的过滤垃圾邮件,提高体验。
谷歌这个“国外巨头”证明了“机器学习”算法在“搜索、邮箱”这种“较软”的服务上的应用价值,而出门问问这家国内初创公司提出了较好的人工智能与可穿戴设备的软硬结合方案。他们于今年7月推出了一款名为Ticwatch的智能手表,其主打的核心技术——语音搜索服务使用了与谷歌相似的机器学习算法。语音搜索要依次完成语音识别、语义理解、垂直搜索并返回结果等工作。在语义理解中,明确用户搜索意图是关键,而使用了DNN等机器学习算法的AI系统对自然语言的“理解力”有很大提高。
除了上面提到的几个人工智能分支技术,还有比较重要的TTS(语音合成)技术也大量使用了机器学习算法。TTS需要对声音的停顿、语气、韵律、口型等声学参数的模拟,除了使用HMM(隐马尔可夫统计模型)、决策树等传统算法,也常使用基于DNN、LSTM的机器学习算法。
我们可以想象得出,随着机器学习理论的发展,人们在语音的输入与输出(语音识别与合成)、计算机视觉(图像处理)、语义理解、垂直搜索等技术上会不断有所突破。与此同时,在智能可穿戴设备、虚拟现实设备、智能车载机器人等硬件方面,以及游戏、电影等内容方面,都会因为高层次AI而出现令人激动的新产品。
明白了人工智能的潜在商业价值,我们也就不难明白为什么谷歌、苹果等巨头加大对人工智能的投入,甚至会在公司所有产品线中,重新定位("re-thinking" )人工智能的角色了。
从感知到认知,我们已经处在人工智能开始认知的阶段了。虽然这还只是浅显的、算不上思考的、基于大数据的认知,但“真AI”已然走在路上。