雷锋网新智造按:2015年, Amazon Echo 横空出世,一年多时间出货量达到500万台。eMarketer 的数据显示,在2017年一季度美国语音助手市场中,Amazon Echo 的市场份额达到 70.6%,远远超过了 Google、Apple、Microsoft 等巨头和一批新进入的创业公司。但绝对领先的市场份额,并不会让后来者望而却步就,竞争的激烈程度在明显加剧。但是,留给其他厂商和投资人的时间还多么?
本篇文章为雷锋网新智造向星河互联人工智能事业部管理合伙人刘玮玮的约稿,主要梳理了智能语音领域的一些热点问题,进行分享。刘玮玮同时也是「新智造成长榜 2017」的评委,将会参加 CCF-GAIR 2017——2017 年全球人工智能与机器人大会,并在 AI 创投专场发表主题演讲。
智能语音领域被认为是通用人工智能最先落地的领域。而语音交互也是继手机触控后,被业界看作下一代交互方式,将会带动相关千亿市场。关于智能语音助手类产品,目前行业仍旧不能给出一个清晰的定义,但却不影响这个品类创业的火热。特别是 Amazon Echo 在2015年的横空出世,Google、Apple 等互联网巨头的跟进,国内的京东、阿里,以及一批创业公司也都看到机会,纷纷试水。
今天将会梳理智能语音领域的一些热点问题,分享给大家。
Alexa 是预装在亚马逊 Echo 内的个人虚拟助手,可以接收及相应语音命令,Alexa 可以被看成是亚马逊版的 Siri 语音助手。亚马逊在2015年6月开放了 Alexa 的语音技术,供第三方开发者免费使用,实现了 Alexa 与开发者的对接。而 Echo 则是一款搭载智能助手 Alexa 的智能音箱,也是目前为止最为成功的一款智能音箱。
几天前,苹果终于推出了自己的智能音响—— HomePod。HomePod 支持用户通过 Siri 控制音箱播放 Apple Music 音乐,并实现新闻推送、事项提醒、闹钟设置、翻译等智能语音助手功能。HomePod 将于年底在美国、英国和澳大利亚与我们见面,售价349美元。
有人将Echo、HomePod、Google Home 三个产品进行互相对比,发现三个产品侧重点并不太一样。从人工智能技术的储备方面,我认为 Google(Google Assistant) 和苹果(Siri)都有成为通用人工智能助手的潜质。Google Home 的信息搜索质量更高,Echo 产品打磨的更加成熟,商业落地最快,生态系统初步搭建完成。HomePod还未上市。
那么,智能助手类产品是不是只是巨头的游戏?目前来看,确实有这个趋势。产品并不只是一款硬件,还包含软件平台、算法、内容等,是个系统工程。所以说,做成一款成功的智能语音产品,并商业落地,不是一件容易事。
另一方面,也只有大公司才能最终做成像 Alexa 类似的语音助手。Alexa 的背后是巨大的计算量、数据量,以及复杂的人工智能算法服务。项目对基础设施、人才的需求量不是小公司可以负担的。
我们先看一下 Amazon Echo 的全球出货量,2016年出货量达到了500万台。这个数量级在智能语音助手类音箱中绝对全球领先,国内做的最好的叮咚音箱也与 Echo 相差了一个量级不止。
就像前面讲的,智能助手类音箱创意很好,但要在国内做成好产品,并且卖上量,则和很多因素(产品体验、内容、技术、生态性等)相关,不是 copy to China 这么简单。
国内企业,可以使用巨头提供的平台服务开发各种终端产品,深入巨头不直接触达的场景,或者还有机会。
根据 BI 的数据统计,可以看到排名前十的应用是设置闹钟、语音遥控听歌、听新闻、计时器,亚马逊电商购物业务相关的一些应用,以及近两年的物联网应用。这是一个非常有意思的统计。一个产品如果能有500万台以上的售卖,就必然不是简单的极客行为,必然有其背后的需求。
大家知道,亚马逊主要销售在欧美,欧美人的生活习惯和场景和国内非常不一样。欧美人的房间一般都是大 house 或者 Loft,他们对时间的规划非常看重,每天起床后,可以听听音乐、新闻,开始一天的工作生活。同时,欧美人对待音乐,也绝不是听听流行歌曲这么简单,音乐是其生命的一部分,是刚需。
而国内的生活习惯和文化则有很大不同,这也解释了为什么国内很多人说类似Echo的产品没有刚需,主要是因为生活方式的不同。想不透需求,盲目跟风,不会取得长久成功。
前不久,亚马逊在其官网上发布了一款带屏幕的智能音箱,这款智能音箱的名字,叫做 Echo Show。
Echo Show 机身正面配备了一块 7.0 英寸的可触控屏幕,屏幕上方中间则有一个五百万像素的前置摄像头,音箱按键和麦克/摄像头控制键被安放在机身顶部,电源接口则被隐藏在背部下方。值得一提的是,Echo Show 配备了 8 个 Mic 序列,比第一代的 Echo 多了一个。价格方面,Echo Show 的单个售价为 229.99 美元,比第一代 Echo 正式发售时的价格贵了 50 美元;不过需要说明的是,Echo Show 首先是一款内置 Alexa 的智能音箱;与它的前辈 Echo、Echo Dot 等一样,它可以实现通过语音来查询天气、控制家电、聆听音乐、使用 Uber 打车服务等功能。
从官网的介绍来看,有了屏幕的加持 Echo Show 能够实现如下功能:
可以查看来自 YouTube 、CNN、Bloomberg 等服务商的视频;
显示天气、日历、待办列表等诸多语音交互时伴随的消息;
通过 Alexa 实现与 Echo Show 和智能手机(需要内置 Alexa app)用户的视频聊天,以及与所有的 Echo 用户实现语音聊天;
播放来自 Amazon Music 的音乐时,在屏幕上显示歌词等信息。
我把 Echo Show 定义为 Echo 系列中的补充产品,这个产品中的屏仅起一个辅助交互作用,核心还是以语音交互为主,帮助人们完成语音交互解决不了的问题,比如购物、图片信息的查看等等。
在产品方面,一些带显示的核心应用一定是与 Alexa 深入集成与优化的,这样才能保证各种交互方式的流畅连贯性。比如,语音购物挑选某些物品,屏幕中能恰当的显示出来。再比如,我用语音叫车选择目的地,屏幕中能不能快速的调出地图等等。可见,加入视觉显示后,交互方面需要的工作量成倍上升。
而我们在国内也见到了一些初创企业,做出了“音箱+屏幕”这样不伦不类的产品,服务调用与语音交互完全脱节,整体体验非常差。
消费级的麦克风阵列主要面临环境噪声、房间混响、人声叠加、模型噪声、阵列结构等问题;
整体的语义理解还处在初期,要达到通用交流还有很长距离;
人机交互容易被人忽视,但好产品确实要求优质的体验。
智能语音助手与产品多是巨头的游戏,创业者切忌创业跟风;
中国和欧美的使用场景很不同,创业者要透彻分析;
如果选择这个领域创业,请备足粮草,做好和行业一起成长的准备。