距离双十一还有5天,各大智能音箱厂商放血补贴大战已经开始。
回想去年,天猫精灵X1从499元狠降到99元,双十一早上8点销量就超过了100万台;为了迎击天猫精灵,叮咚TOP智能音箱更是降价到了49元。两大电商巨头的价格战极大地促进了智能音箱的销量,但是由于智能音箱核心的对话式人工智能技术尚未完善,靠价格补贴燃起来的一把火,也没能越烧越旺。
语音交互无疑是下一代人机交互模式,智能音箱是目前最被看好的载体之一,即使这个产品离挣钱还远,也阻挡不了各大巨头继续烧钱。在前几天的百度世界大会上,百度宣布了一系列智能音箱的降价促销,百度首款带屏智能音箱小度在家从699元降至299元;全新的小度智能音箱Pro售价399元,双十一期间价格为 169元 ;小度智能音箱从249元降至69元。雷锋网了解到,天猫精灵方糖价格直降,2件套/3件套仅89元。
各大巨头在价格上依然是贴身肉搏,但是今年,智能音箱的对话式人工智能技术之间的较量,已然拉开了距离。
百度世界大会上,DuerOS展示了“Endless Conversation”,这是全新的对话式人工智能技术。从字面上来看是“无止尽的对话”的意思,也就是说你只需要一次唤醒,就可以跟智能音箱进行持续的聊天。
百度的“Endless Conversation”也正是微软在今年4月发布的“全双工语音交互技术”,以及谷歌在5月展示的“Duplex”。微软小冰团队将 “全双工语音交互技术”视为有史以来对话式人工智能最重要的更新,谷歌的Duplex也在朋友圈大火了一把,足以印证这一项技术的突破性。
作为最先实现这项技术的公司,微软、谷歌、百度自然引领着对话式人工智能全新的技术标准,也让今年的智能音箱大战,有了不同的拼杀点。
我们来详细聊一聊。
从苹果发布Siri以来,不少人都熟悉了语音助手和背后的对话式人工智能技术。语音交互被视为下一代的交互方式,然而在很长一段时间里,跟机器进行语音对话都是一个痛苦的过程。每次对话之前,都需要说唤醒词,唤醒之后智能进行一次一问一答的交互,说话时还得学着机器字正腔圆的发音,这样的对话过程既机械又费劲,其结果还时常答非所问,令人沮丧。
4月4日,微软小冰发布“全双工语音交互感官”,从底层技术架构全面刷新了对话体验,使得微软小冰能实现一次唤醒连续对话二十分钟以上,不再依靠搜索而是用深度学习技术自己生成回复内容,答非所问的情况减少。
微软对“全双工语音交互”的解释为:与既有的单轮或多轮连续语音识别不同,这项新技术可实时预测人类即将说出的内容,实时生成回应并控制对话节奏,能理解对话场景在诉说者/倾听者之间实现角色转变,还可以识别说话人的性别、有几个人在说话。
半双工的智能音箱是什么样子呢?当智能音箱在说话时,它无法聆听用户的指令,你无法打断其说话,只能听完,而全双工能实现一直听加一直说,听和说都是一直持续动态进行的。
这样的技术革新是不可逆的,当你跟微软小冰进行过一次持续的对话,有了这种近似于与人面对面聊天的体验后,你就很难再回到不停说唤醒词一问一答的机器对话状态。
微软这项技术却被擅长“表现”的谷歌抢先占据了热点。
与微软的“全双工语音交互技术”命名相同,谷歌称这项连续对话技术为“Duplex”(双工)。5月8日,谷歌在Google I/O 2018上介绍了Google Assistant中新增加的Duplex,它可以自己给饭馆、发廊等商业店面打电话,帮用户预约服务,由于Duplex能连续对话,理解上下文后做出很好的回应,店员甚至没有意识到打电话来的居然是个【AI】。
这一简单直接的“AI打电话”秀吸引了不少人的目光,谷歌Duplex一时间刷爆了科技界朋友圈。
当时,微软还连夜发布了技术声明称:“自2016年8月起,微软(亚洲)互联网工程院通过人类用户主动发起的方式,已让小冰与人类用户累计完成了超过60万通电话。”也就是说,小冰才是第一个能跟人类进行电话聊天的机器人。
只不过,微软小冰有其独特的声线,而谷歌则是将其Duplex训练出与真人一模一样的声音,让人无法区分,自然一下子觉得很厉害。不过目前谷歌只是在特定的领域实现了这个技术,例如预定餐厅、发廊等,并不是全开放式的聊天。
7月4日,百度在“Baidu Create 2018”百度AI开发者大会上也展示了一段百度AI语音助手“小度”给用户打电话的音频。
开发者大会召开之前,百度选择了一部分参会者,让小度拨通了他们的电话。小度首先跟开发者确认是否出席大会,随后为开发者提供餐饮和交通方面的信息。在交流过程中,小度能恰当使用语气词;在说话时被用户打断也能立刻给出新的回应,不用等到小度将一句话说完;在完成通知用户参会的任务后,小度也能与用户展开闲聊,并且主动结束对话。
由此,能够实现“全双工”对话成为对话式人工智能的全新标准,而衡量的最简单的形式是:AI能够与人类在电话里流畅对话。
做对话式人工智能,对话当然是最为重要的,然而,不少朋友也对雷锋网编辑表示,估计只有小孩子才会喜欢跟智能音箱聊天。
智能音箱作为家庭的智能中枢,除了要会聊天,要能提供更多个性化的内容变得更加重要。
为了成为更好的内容提供者,微软小冰已经走上了才艺双馨的道路。
7月26日,微软小冰升级到第六代,她有了全新的3D形象,还展示了唱歌、作词作曲、写作、讲故事等才艺。
在微软2018人工智能大会上,微软(亚洲)互联网工程研究院副院长李笛曾经分享到,现在多数用户跟语音助手交互的时间其实不超过5秒,一般就是让语音助手去执行一项命令,这样的语音助手其实只是像语音化了的遥控器。但是,小冰的团队希望语音助手能做更多的事,比如走到比较后端,去提供内容。
大家可以再来感受一遍小冰作词和演唱的《我知我新》,反正雷锋网编辑是自认唱不过了。
雷锋网编辑注意到,前几天,国内创业公司Rokid也在网易云音乐发布了其对话式人工智能演唱的歌曲《Rokid Monkey》。只不过似乎还在初级阶段。
小冰讲故事则是依靠语音合成和NLP技术,让小冰能够将故事文本用声情并茂地讲出来。这一技能主要是针对儿童。
百度DuerOS也升级了其内容能力。首先是小度已经能主动给用户推荐内容。在百度世界大会现场,李彦宏与“小度在家”进行了一番对话。小度在家问李彦宏是否需要了解一下今日热词“唐嫣罗晋婚后现身”,李彦宏答:“呃,换一个吧。”于是小度在家为他推荐了“袁隆平水稻再创纪录”,播放了相应的新闻、百科、视频等内容。
针对儿童市场,百度在DuerOS上升级了儿童模式2.0,在内容资源和交互体验上都有针对性的优化。儿童语音唤醒率/识别率第一次超过95%,为儿童用户筛选专用内容。景鲲介绍到,“我们找来10为行业大咖,构建了小度儿童教育成长联盟,为儿童群体筛选出分离教育内容。”DuerOS拥有超过80万的精品儿童读物,百度百科全量1400万词条内容。
同时,DuerOS推出分龄教育,为不同年龄阶段的儿童提供不同的内容资源,例如2岁的儿童关注智力开发、语言启蒙;5岁的儿童关注习惯养成、社交能力,通过分离教育内容可以解决儿童在各个阶段教育内容需求配置问题。
不管是智能音箱还是手机里的智能助理,都在一步步朝着数字生活管家迈进。目前,各家智能音箱都在标榜自己平台上的技能数。
零散的技能自然不如底层聊天技术重要,但是当底层聊天技术日益成熟时,技能的多少也许会是不同对话式人工智能的安身立命之核心。
由于很早就搭建起开放式的对话式人工智能平台,DuerOS在开发者和技能数量上目前在国内领先。目前,DuerOS合作伙伴超过300+,落地主控设备超过160+,DuerOS技能开发者数量24000+,这些数量在国内都是第一。
不过,这个数字离亚马逊的Alexa还有一些距离,作为最早发布智能音箱的公司,在全球范围内,Alexa已经拥有50,000个技能,与20,000种设备兼容,并与超过3,500个品牌合作。这一数字是Alexa一个新的里程碑,也印证着智能音箱席卷全球之势。
智能音箱是具有高科技AI技术的新产品,但是其自诞生起就贴上了低价的标签,低至69元的价格必然需要公司拿出不少钱去补贴。互联网发展到后半程,巨头公司在AI时代的卡位战似乎在智能音箱这一品类上演得淋漓尽致。
近日,市场调研机构 Canalys 新发布了 2018 年第三季度中国智能音箱市场报告。数据显示,第三季度国内智能音箱出货量达到 580 万台,环比增长 1.0%。品牌占有率方面,阿里巴巴、小米依旧占据市场主导地位,分别位列国内市场第一、第二,百度则以强劲的市场表现首次进入市场前三名,京东叮咚则被挤出前三,排名第四。
微软虽然在全双工语音交互技术上有着领先优势,但是由于其迟迟没有落地的硬件产品,一直没有进入智能音箱大战。今年年初,微软与小米生态链合作企业发布了搭载小爱同学和小冰的双语音助手音箱Yeelight,不过关注度并不高。
2018年,微软、谷歌、百度都在对话式人工智能技术上获得了突破,不管是被命名为“全双工语音交互”、还是“Duplex”还是“Endless Conversation ”,我们都看到了语音交互技术革命性的变化。这自然也为对话式人工智能行业设定了一个标准。
不过,由于各个公司的基因的不同,在底层技术之外,他们也有着其独特的个性。比如微软小冰有着其独特的活泼调皮、多才多艺的人设;小米小爱同学则能操作小米生态链平台10大类、30多款、共计8500万智能设备。
那么今年双十一,你想好买哪款产品了吗?智能音箱排位赛会有怎样的战况呢?
相关文章: