现在,智能语音助手已经无处不在,手机、音箱、电视、汽车里都能寻得他们的踪迹。他们都有一些相似的点:能识别语音、说唤醒词就能开始对话、可以完成人们的各种指令,除了内在技能以外,在外表上,他们目前也都没有能直接交互的可视化形象。
在雷锋网看来,打造一个能交互的可视化智能语音助手,或许是智能语音助手发展的下一步,也可能成为各个致力于交互式人工智能公司体现差异化的地方。
和二次元老婆一起生活
7月31日,即时通讯巨头Line推出了拥有全息形象的智能助手——全新版本的Gatebox,旨在为用户提供家人般的陪伴。
Gatebox的外观接近小桌灯大小,玻璃外壳,利用全息投影技术在玻璃内呈现出一个名为Hikari Azuma的二次元人物。
Gatebox这款产品看起来天生就是为日本宅男设计的,用一个玻璃盒就可以把自己的二次元“老婆”养在家里。
演示视频也弥漫着一股单身宅的气息。
第一个画面,“宅男”在公司加班,Hikari Azuma通过Line发去了消息,“你记得今天是什么日子吗?什么时候回来?”
“宅男”说,“马上回来!”
Hikari Azuma:“好棒!”,随手打开了家里的灯,等待主人回家。
“宅男”回家后,Hikari Azuma立马甜蜜问候:“欢迎回来。”然后羞答答地说:“今天是我们住在一起三个月纪念日,你记得吗?”
“宅男”立马拿出了礼物,Hikari Azuma看到之后开心地鼓掌。
“宅男”准备好食物和酒,开始庆祝时,Hikari Azuma把家里的灯光系统调节成了温馨浪漫的风格。
最后,“宅男”和Hikari Azuma举起酒杯,互相感谢对方的陪伴。
视频最后的一句话写着:Living with characters(和二次元老婆一起生活)。
恩,看完视频,雷锋网编辑感受到,霓虹国在关爱宅男方面,真的是很有建树了。
从视频中男主人与Hikari Azuma的交互来看,Hikari Azuma具备文字对话、语音识别、视觉感知等多模态的智能。据外媒报道,旧版的Gatebox需要按实体键才能进行对话,新版Gatebox-100可以直接说唤醒词。而视觉部分则是通过外设的摄像头和传感器实现。
很遗憾,目前雷锋网编辑还没有一手体验,无法获知Hikari Azuma的对话能力究竟如何,是否能实现连续的对话能力。
Line这家公司为何要做Gatebox这样的产品呢?
Line是韩国最大的网络运营商Naver Corp的子公司,其用户数已经超过2亿。除了即时通讯外,Line还有支付、音乐、游戏等垂直业务。如今,互联网巨头苹果、Facebook、亚马逊都在做智能语音助手,Line进军这个行业也是顺理成章。
去年3月,Line发布了一款名Clova的智能语音助手,然后推出了多款智能音箱,有Clove Wave、Champ、Face还有Clove Friends。
而Gatebox最初是由日本公司Vinclus开发,2016年曾推出限量300台,售价30万日元。2017年,Line收购了该公司的多数股权。
现在,Line推出大众市场版本的Gatebox-100,售价降低到15万日元(约合人民币9112元),不过拒说想要和“老婆”生活,每个月还需要交纳1500日元的生活费,不然老婆就要打包走人了。原来虚拟的老婆也是要养的。
但是,令人惊讶的是,Gatebox-100现在并没有搭载Line的人工智能助手Clova。Line表示不久之后,Gatebox就会与Clova集成,可以获得Clova更多AI技能,包括与第三方服务的更深层次集成。
在雷锋网看来,不知道是否是因为将Clova与Gatebox集成需要很大的研发精力,而Line又不确定Gatebox这种小众路线的产品是否能获得足够的市场。
除Line之外,雷锋网发现还有不少公司在探索智能语音助手可视化之路。
三星也在研发类似Gatebox的产品。今年4月,在SXSW 2018展会上,三星推出了一款新型智能音箱原型产品,名为Aurora。三星Aurora智能音箱没有麦克风、处理器,甚至任何其他智能的组件,而是采用了可放置兼容智能手机的底座,需要把手机放进去,才能使用。显示屏能够投影出一个全息式的动画角色。
还有微软。
7月26日,微软小冰升级到第六代,她才终于有了3D形象,以前,只是一张看不太清楚长相的二维头像。
在此之前,或许是技术不成熟,又或许是打扰不同的人会对智能助理的外观有不同的要求,小冰一直没有具体的形象。经过四年的发展,小冰从一个活跃在QQ和微信里纯粹的聊天机器人进化成为能写新闻、主持节目、写诗、唱歌、讲故事、识别图像的多才艺智能助理。VR和AR等技术也日趋成熟,视觉的3D化是大势所趋。至少有了3D的形象,小冰就可以靠颜值去主持更多的电视节目。
微软HoloLens团队也多次表示,MR是视觉,AI是大脑,AI与MR的融合是必然。例如以后微软小冰、小娜都会有3D的形象,你带上眼镜就能直接看到3D的小冰、小娜。
小冰从一开始定位为聊天机器人,就很注重对人类的陪伴,这一点与Gatebox的定位其实是一致的。对陪伴式机器人来说,拥有可视化的外形会是加分项。
我们也看到,在小冰拥有3D形象之前。已经有网友自己制作出了微软小娜的全息互动装置。
这名爱好者名叫Jarem Archer,2017年5月,他在网上放出了一段视频,展示与全息Cortana之间的互动。整个装置都是他自制的,用Unity 3D制作动画效果,用Kinect实现动画动作,然后还采用了面部跟踪来让Cortana一直面朝说话者。
雷锋网也设想,除了Gatebox这样一个专门全息展示装置之外,我们也可以通过其他的技术手段使得现在搭载智能语音助手的硬件也能有3D的形象。例如,利用手机AR,手机里的智能语音助理就可以有3D形象,在用户需要的时候被召唤出来,手机的摄像头也可以识别人的动作和表情,帮助智能语音助理获得视觉的部分。智能音箱则获取可以依赖投影技术,向外投射出智能助理的形象。
雷锋网也了解到,目前还有其他的专注于交互式人工智能的公司在探索智能语音助理的可视化,放置在公共场景,例如咖啡厅、麦当劳等场所,作为服务员帮助用户点餐,陪伴用户等餐。
那么,为什么现在都还没有成熟的方案呢?
目前,对话式人工智能技术在不断成熟,Google Assistant已经能够打电话给餐厅帮用户预订位置,而服务员甚至无法辨认出对方是机器人。微软小冰也已经能够与人类通电话,能了解对方的情绪状态,还能安抚对方的低落情绪。 但是,这都是在文字、语音对话的层次上面。
可以想象,如果智能语音助手有了可视化的、具体的形象,人们在与其交流时,会给出更高的心理预期,期待更自然、更多交互的对话。在纯文字和语音时,如果智能语音助手听不懂人类的语音、回复很慢、回复完全风马牛不相及,似乎还能原谅。要是有了一个可视化的形象,这样似乎只会显得很傻。有着完美形象,但是却时常无法与之进行正常的交流,会很气人吧。
像Gatebox这样走的是宅漫风格,能把全息“老婆”带回家,就已经能满足很多人,或许能弥补交互上的问题。除了Line这样的方案以外,雷锋网好奇,还会有什么样合适的场景呢?
相关文章: