雷锋网按:本文由DeeperBlue发布于雷锋网。转载请联系授权,不得删减内容。
半个月前的锤子手机发布会让全国人民(包括我妈)知道了一家叫科大讯飞的公司,以及语音智能这件事。
我没有在现场。据说老罗向观众们介绍了锤子的主要合作伙伴科大讯飞的一款产品——讯飞输入法。老罗用很快的语速说出一大段长文字,讯飞做到了无时差翻出文字版本,并且识别结果几乎没有任何偏差,堪称完美,现场一片欢呼。
讯飞输入法支持 19 种方言输入,相比苹果的 Siri,以及微软的 Cortana,讯飞输入法显然在本土化上占尽优势。
讯飞输入法背后的公司叫科大讯飞,是目前国内最大的智能语音技术提供商。第二天,科大讯飞的股价在开盘点迎来了新高。鉴于从 2008 年科大讯飞上市开始股价表现平平,不少人表示终于熬到了可以套现的时刻。
除了讯飞,国内在近几年内崛起了一连串致力于智能语音的创新公司,典型代表有思必驰、声智科技,以及云知声。
人工智能时代来临,语音技术公司的春天又来了。围绕 AI 的创业团队如雨后春笋,智能语音技术的应用成为它们打开市场的首要选择,几乎每个月都会有数款语音交互机器人发布。除了硬件,语音服务平台也迅速被建立。键盘作为输入系统即将被停留在上个时代,人类将用语言和机器进行交互。智能家居和车载成为语音产业最集中的领地,也即将诞生出爆发市场。
然而,高新技术怎么赚钱、做什么赚钱,是一个永恒的话题。事实上,热炒的讯飞输入法、讯飞语点以及讯飞语音云,仅占讯飞的总营收 3% 左右,收入不足千万。道听途说的还有一件事,科大讯飞每年 20 多亿的收入,其中绝大多数来源于铺网线和做教育工程的集成,并非是高精尖的智能语音技术。
上个月,在深圳举办的一场小型内部智能语音研讨会上,思必驰副总裁、声智科技创始人,以及来自峰瑞资本、祥峰投资的两位关注人工智能的早期投资人进行了关于“语音技术如何赚钱”的话题讨论。恰好我在现场,觉得说得非常不错,有些段落简直堪称精彩。于是要来了录音记录和版权,分享给大家。这里也许有你想要听的实话、真话。
以上内容来自DeeperBlue季星。
(参与研讨的嘉宾)
2012 年智能手机出现后,短短几年内,国内就涌现了一大批语音相关的公司,像云知声、思必驰、科大讯飞,发展都非常迅速,很快进入了公众的视野。这也得益于手机这个智能终端的发展,使得语音成为手机上的一个重要应用。
而在 2015 年,我们依然认为语音是一个非常好的投资机会。原因有以下两点:首先,虽然在过去的两到三年里,人工智能的发展使得语音技术取得了很大进步,但我们发现实际准确率仍然不够高——虽然大家根据实验数据进行宣传,说准确率达到了 95% 以上或者更高,但实际情况是,在实际使用时并没有那么高。
抛开算法和技术方面不谈,前端的很多问题我们还没有解决。我打个最简单的比方:过去我们讨论的语音识别技术,有点像人类的大脑——在听到声音之后,我们如何进行翻译,或是怎样把它变成大脑可以理解的信息。但实际上,关于耳朵的问题我们还没有解决——如何排除噪声干扰?如何在多人讲话的时候会听清想听的内容?如何在距离较远时分别声音的方位?前端的语音/声学交互的很多问题如果得不到解决,整体的体验始终不够好。
第二点,从数据上看,苹果上语音搜索的使用率其实并没有那么高,原因在于,手机虽然不是键盘的,但触屏的体验还是很好的。发展的前景在于智能硬件:在手机之后,大量智能终端的爆发,包括家居、车载、可穿戴设备、机器人等,这些智能终端上的键盘——或者说手指就变得更加不重要以及不友好,而语音则变得更加友好和重要。
思必驰语音智能后视镜,驾驶员在跟机器交流的时候,可以随时打断机器的说话,让他去执行其他任务,让机器做你临时想做的事情。可以解放双手,让驾驶更安全。
基于以上两点,我们认为,语音技术还会有更多发展和进步。
关于语音技术,大家其实一直都面临一个问题,就是怎么赚钱?科大讯飞 20 多亿的收入,其中绝大多数是铺网线和做项目工程,前沿科技类的东西其实是没有赚到钱的。
在线上,我们本来可以提供 API 赚钱,但后来百度免费了,那其他人也只能免费了。做 APP 去对接服务,大家会觉得手机上的用户习惯、行为习惯还没建立起来。所以我想问就这个很实际的问题听听大家怎么看。
这个问题很好,也很难回答。对思必驰来说,我们现在是在考虑怎样把钱烧掉,并没有考虑怎么赚钱这件事,这件事情确实是比较难。
现在其实大家能够看到,从 PC 和互联网到移动互联网、再到其他,语音很可能是一个方向。语音作为一个便捷的交互方式之一,随着智能硬件设备的迭代更新,它有可能会成为替代触屏的交互模式。这也是为什么资本和技术都聚焦在这一块,使得人工智能的一个小春天在寒冬中诞生。
赚钱这件事情,目前我们确实看不清。
但是围绕着这个方向,我们可以看到一些大方向:一个是核心技术以及产品体验的提升,这是必须要做的。第二个则是,我相信大部分公司,在未来肯定会有一笔相对不多也不少的技术授权费之类,虽然这部分不足以满足资本需求。
然而我仍旧相信,未来无论是 2C 也好、2B 也好,在这个环节上大家都在探索。这条路径是曲折的,但方向一定是正确的。
我先简单介绍一下祥峰投资,我们是新加坡淡马锡旗下的 VC,主要关注消费和技术领域的中早期投资,在人工智能方向投资了地平线、Maxent 等。下面我从投资方的角度简单谈一些看法。
要看怎么赚钱,最主要的是找到需求在哪。在看了这么多创业项目后,我们会思考在中国的消费生态下,那些赚钱的公司是怎么来的?其实核心是抓住用户的真正的需求点,从需求点出发,考虑怎么样去做产品,然后追溯到你的上游,再到顶层甚至是芯片,找到哪里有机会。
首先,在手机端,语音作为输入方式是有需求的,但刚才大家都说,现在如今只是在手机上做一个语音识别的技术,提供一个输入的方式,希望通过输入法建立 APP 来收费,显然这在今天已经是不太可能的事情了——现在,没有一个类似百度输入法这样键盘输入的 APP 还是收费的。
即便语音是不一样的输入方式,但想要收费还是很困难的,特别是当大佬们都已经在做的时候了。这个时候,就要找到一个需求场景,并且上面没有其他方案可以和你竞争——一个语音可以扮演重要角色的场景。
比如智能家居中的音箱,就是一个很好的例子:你不可能在音箱上去触摸,也很难用其他键盘去输入。因此,如果你找到一个和音箱产生交互的方式,那么显而易见你就是最好的,因为没有其他强有力的替代者。
再说汽车。其实汽车里面,多年来大家使用的旋钮、按键,本身是一个非常好的人机交互方式——它未必比语音输入的效率低,反而效果很好,因为你可以做到盲操作。设想一下,在车里面我要换电台的时候,我不用看中控,就可以摸到旋钮去操作,或者在方向牌上有一个旋转的轮子,可以让我调整音量之类,这已经是最好的人机交互方式了,而通过语音增大音量或是切换频率,则未必能更加直接和准确。
但是,在车中还有很多旋钮无法解决的其他需求。比如。后排的一客需要和车发生交互——现在很多车都有后排独立的空调系统,当乘客觉得后排的温度太低了,希望空调调高一点的时候,现在的情况是只能让驾驶者把后排的空调调一调,或者后排有自己调整的方式,但它未必是自动的方式。
如果能够做到,通过一个很好的语音识别的阵列工具,很好的分辨出不同乘客的方位,到底是在主驾、副驾,还是后排的左边或右边,根据他们发出的语音指令满足不同人的需求,就能产生一种新的交互方式。除了空调,还有的需求比如切换一个电台、换一首歌,等等。
那么从产业链上游来看,这么多年,芯片一直都是一个可以赚钱的事情。在语音识别这一块,做语音的处理芯片,比如 iPhone 使用的 Cirrus Logic,在语音处理这一块的算法做得非常好,它解决了语音降噪、方位识别上的关键问题。有了芯片作为载体,就可以基于传统芯片的商业模式去挣钱。
Cirrus Logic 推出的 CS44130 可以为整个音频信号链提供芯片,包括模拟或、数字输入和扬声器喇叭输出之间的各个部分。它精小的设计可以大大简化产品的设计。
往下走,在芯片的下游,模块也有赚钱的机会,就像今天声智科技在做的事情一样。如今的产业链分工是非常细的,很难再有像过去的飞利浦、西门子这样的大公司,核心的部件、全器件的研发,一直到最终的产品都是由一家公司来做。在分工很细的情况下,芯片公司不可能再去做一个产品,也很难再去做一个模块,中间其实需要的是一个做阵列的公司:把产品以一个模块的形式提供,同时不仅仅做一个 PCB 板把芯片放上去,而是把算法结合在里面,体现出附加值。
最后,生产用户真正使用的一些产品也有赚钱的机会。比如类似于 Echo 这样的终端产品,京东和讯飞也在做,之前也有一些创业公司在做。不过,真正有机会的创业公司是能够去开拓一个新的市场领域的。就音箱来说,这是一个长期存在的行业和产品,那么,可不可以创造出一个新的产品形态?在这方面,创业公司往往拥有更大的机会,比如大疆在无人机领域能做到今天的体量,是因为它完全开创了一个新的产品品类。
图为 Echo Dot, 它的场景就不是用来听歌的,而是一个语音助理。
比如说机器人,虽然现在大家还没有普遍使用机器人,但是它一定是一个趋势性、未来性的东西。在家庭场景中,使用最为广泛的其实是扫地机器人。很多人买了一段时间就未必再用扫地机器人了,其中有各种各样的原因,可能扫得不够干净,也有它不够智能的原因——它是在完全没有规划路径地在乱扫。如果现在我们能够加入更多智能的东西,包括语音的交互,它就有可能成一个真正的智能机器人。你可以呼唤它:“扫地机器人,到我这里来,把这个房间打扫一下。” 而不是拿一个摇控器操作,或者走过去把它提过来。你的声音传递给他,他就知道你的方位,就会自动朝你的方向走,这也是一个可以提升用户体验的方向。
为什么会说语音技术赚不到钱?其实是一开始没搭建好商业模式。刚开始提供云识别,是 to VC 的模式,强调的是公司的品牌影响力。那一旦开了免费的口子,之后就无法再收费了。
我们现在希望能先把 “蛋糕做大了”,之后怎么分蛋糕大家再商量。但现在整个市场还没有起来,所有做语音技术的都在烧钱。
声智科技的起步有点特殊:它一开始就做硬件,大家看到很多的展示的产品,有我们授权的,也有我们自己的,都可以让我们从硬件中直接得到收入,相对来说,我们最初的商业模式是非常简单的。
图为声智科技的主要产品方向
但就像刚才我说过的一样,这个是有问题的。光看硬件,是不足以吸引公司对我们的定义产生理解的,我们很难再做一个大规模的公司,这个时候,我们对硬件加软件后端的理解就和讯飞产生了一些差异,我们并不把语音交互只看作一个输入法,也就是说,我们把它定义为类似于其他的操作方式的升级。我们把它看作搜索的升级,也就是让语音交互可能成为下一代的搜索。而我们现在做的是现代搜索的一个入口,有点像以前的浏览器和后面的百度、谷歌之类。可能我说得比较大一点,就是将我们原先的交互方式升级。
我们回想一下,在 PC 端时代,我们用得比较多的是谷歌和百度。那个时候,我们要打开浏览器、输入内容,再去查找网页,但是到了移动互联时代,用手机时我们会发现,在手机上,我们很少去打开一个浏览器,打开百度、谷歌,再去搜索内容,至少频次明显比原先在 PC 上的频率小很多。现在,我们已经更习惯打开 APP ——实际上,通过 APP 的形式,搜索已经被折叠化了。
我们现在知道,谷歌和亚马逊对智能音箱很感兴趣。提到智能音箱,我们又会发现,当我们面对没有屏幕的音响是,你就不会去输入或者打开 APP 了——也就是把搜索进一步折叠了,折叠的结果是,你去直接问它,这个效率明显比前两个的效率更高。实际上,这些都是由人性决定的——人的本性就是,喜欢向着简单、高效去发展。
这个时候我们会发现,语音会改变未来搜索的状态:现在的小朋友如果适应了智能音响的交互方式,很多时候他就会直接提问,而不是打开 APP,或者像 PC 时代一样,输入很多需要查找的信息。
电影《 Her 》的海报,电影中的主角爱上了他的智能设备——一个来自语音识别系统中的声音。电影预言:在未来,人们都离不开基于语音识别技术的智能系统。
我们现在有一些微薄的收入,但是以后我们在里面怎样能够产生更好的方式,对我们来说,就是硬件+芯片,这在以后会产生更好的营收。移动端有很多 AP、很多的巨头,但是这到底能产生一种什么样的新的商业模式,可能还都是在探讨和摸索中。
现在很多巨头,不用考虑营收,所以它们会尽量去做。对我们来说,只能先有硬件,然后下一步加轻量的方式,维持公司正常的商业运转,然后下一步,看看会不会像我们预想的一样,语音能够下一代的搜索入口、甚至发生入口大战,然后形成新的商业模式,能够改变我们很多的行为习惯。这就需要各方面去探讨和摸索,甚至还会掉进很多坑。
我相信第一波会有很多家公司做进去,因为大家经常说,第二波公司会做得很好,每个时代的发展都经常出现这样的情况。关于定位,我们也不敢说什么,只是先给大家提供完整的解决方案,不管是机器人、智能音响、车载,我们都更希望,大家共同开拓这个市场。同时,我们本身也是非常开放合作的。
注:本文来自微信公号深蓝deeperbule(ID:depperbluetech),转载可联系深小蓝(ID:miniDeeperBule)。