编者注:我们普通人使用电脑毫无障碍,但你是否考虑过盲人以及并不熟悉技术的人的感受?正因如此,现在像Siri这样的语音助手越来越多,它们让用户不用屏幕就能控制电脑。在图形界面之后,我们将迎来以语音为基础的会话界面,而它普通的速度可能比我们想得要快。
乔布斯的故事大家听了很多,下面这一则你也可能听过。他1979年参观加州最负盛名的PARC研究中心的时候,目睹了图标用户界面(GUI)的方便快捷。这种界面我们现在很熟悉,就是桌面上有各种图标和下拉菜单,然后用户通过鼠标来操作应用。当时的乔布斯觉得非常神奇,怎么电脑的页面能够同时打开,并且还能重叠在一起?他那时就断言:“未来的电脑都将做到这一点”。
之后,乔布斯就致力于Apple,组织团队模仿并不断改善PARC研究中心的操作界面。接下来的40年,个人计算设备飞速发展,从最初的Mac到如今的iPhone。视觉页面的方式太方便了,哪里不会点哪里,没有了编程指令的繁琐,这样不懂计算机技术的人也可以使用电脑了。
不久的将来,我们就会觉得PARC的图标界面技术没什么神奇的。为什么?因为还有一个团队在创造更神奇的事——会话用户界面(Conversational UI)。这些科学家预见,未来的计算机功能会很强大,用户根本记不住那么多应用和流程。为了避免用户来来回回寻找应用,计算机操作界面最好使用普通人的语言。
科学家Ron Kaplan说,与70年代相比,会话用户界面在他们团队的努力下,取得了长足的发展。他们整合的操作系统能让用户通过与电脑交换普通的短信息,完成机票预订,但是目前这种技术还达不到大范围的应用,“成本很高,具体多少我不知道,有可能一个用户一百万美金”,他表示道。计算机还需更快、更智能、更高效,而要达到这个程度,Kaplan认为要花15年。
Kaplan不仅是位出色的科学家,还是Nuance Communications的副总裁。他的公司目前占据了市场上语音界面业务的大头,与各行各业有广泛地合作,还帮助福特开发汽车内置的Sync系统。Nuance发现竞争愈益激烈,亚马逊、微软 、Google等技术公司都在做会话用户界面这块,还有那些不断成立的新公司,所有的人都希望能攀到这次变革的最前沿。各种公司都预测用不了多久,用户就可以与技术设备对话交流了,就好像跟朋友聊天一样,它们会倾听你讲了什么并清楚地知道你的意思。
新的技术能使数字生活进一步扩展,弥补图标用户界面的不足,随着人机交流的深入,人类与计算机的关系会更贴近。
这次变革最大的影响将会发生在不太懂计算机技术的人身上。当年乔布斯通过图标用户界面(GUI)扩展了计算机销售市场,但要高效地运用GUI,用户还是需要学习成本,仍然有很多人对计算机运用一窍不通。会话用户界面就大不相同了,计算机将学着与用户沟通交流,懂得使用计算机的人会越来越多。
其实几年前就已经有语音界面了,但效果一直都不好,因为手机收录的信息很缺乏,用户有时也就无所适从。如果你问Google Now纽约市的人口,这就很难为这个软件了,它答不上来。要是你问帝国大厦的位置,Google Now可以说出来,但如果你问帝国大厦所在城市的人口,那它就要崩溃在你面前了。Siri也是一样,只要问题它找不到答案,就自动建议你用Google浏览器查询。这样的会话界面效果,相信各位用户也是呵呵了。那些我们在科幻电影里看到的计算机高科技场景,真的要埋藏在深深的脑海里了吗?不是的。硅谷表示,时代已经不同了。
早前,SoundHound公司的 CEO Keyvan Mohajer向记者展示过了一款新的App,该公司近10年一直在秘密开发这款应用。或许读者熟悉SoundHound公司,是因为它的手机应用能识别音乐,用户只需要哼出音调,它会自动识别出音调对应的歌曲。Mohajer想创造世界上最好的声音人工智能助手,这款新App的诞生,使他离梦想又进了一步。
新App名字叫做Hound,Mohajer用Nexus 5展示了它是如何运行的。他首先打开一个蓝白相间的耳机图标,然后开始问问题。起先的问题都比较简单,比如柏林的时间、日本人口等。Mohajer在简单问题的基础上,再问需要动点“脑经”的问题,比如,“柏林和日本相距多远?”。App也能答得上来:“大约5536英里”。
随后Mohajer加快问问题的速度,并加深问题的难度。他让Hound计算出售价100万美元的房子每月月供的数额,App立即询问他当时的利息率及贷款方式,不一会儿就算出来了。
“太空针塔(一座著名建筑)所在国家的首都人口是多少?”他问道。Hound推测出他是在问华盛顿特区的人口,并很快给出了回答。他还连着问了很多,“日本和中国各自首都的人口及面积是多少?意大利住了多少人?德国、法国、意大利的区号分别是多少?”问题太长,他自己都快断气了,但Hound却依次回答了所有问题,而且都回答正确。
按功能划分,青少年中使用语音搜索的比例
虽然Hound还在试验阶段,但可能是目前功能最强大的语音识别系统。目前它能识别声音而且速度又快,相比同类软件而言,优势还是很明显。但信息技术的世界瞬息万变,其他软件的赶超可能只是朝夕之事。
毕竟,对于会话界面而言,很多必要的技术,基本在市面都有的卖。如今科技的方方面面都在进步,计算机处理能力、声音识别、移动连接、云端运行、中枢网络等等,这些技术越来越好,也越来越便宜,这有利于会话界面的发展和普及。
而且会话技术的发展很有必要,因为现在越来越多的设备都能联网了,包括照明设备和火灾报警器等等,这些东西都没有屏幕操作界面的,没菜单、没图标、甚至没按钮,那么就需要找到一种可以操作这些东西的方法。
另一方面,乔布斯对GUI的开发已接近极限,现在的屏幕操作界面都玩转指尖,点击图标或菜单就行了。但想想Photoshop和Excel,两者处理事务的功能自不必多说,操作步骤却很繁琐,要用到各种快捷键、菜单命令还有很多陌生的工具,甚至我们连工具在哪里都不知道。“GUI开发已达到顶点,现在不那么好用了”,Kaplan说道。
作为用户,我们当然不想被诸多页面、各种工具搞得晕头转向。这也是虚拟助手市场繁荣的原因。目前生活中使用虚拟助手的情况不是很多,不过可能很快就普及了也不一定,尤其是iOS 9,Android 6.0和Windows 10系统的推出,会话界面将会取得较大的跨越式发展。到时,用户就不再进入App中去寻找各种功能了,而是和Siri,Google Now或者Cortana对话。而Facebook也会推出智能助理M,用户也会新增十多亿。会话的人机交流方式将会成为主流方式,某些时候还可能是唯一可用的方式。
本来最初发展虚拟助手也是为了使复杂的操作简单化。用Apple公司HomeKit系统做房屋管家,你只要说:“晚安,Siri”,家里的电器都会自动关闭,门窗也自动锁紧。助手很了解你手机里每款应用的功能,并且可以来回切换。而且,和助手相处时间长了,它也会慢慢总结出你的习惯,变得更了解你。
Keyvan Mohajer
但必须明确的是,会话技术并不会取代触屏,甚至不能取代鼠标和键盘。如果你很精通电脑操作,那么你宁愿保持现状。或许你也用虚拟助手,不过你很可能问它剪切工具在哪里。
对某些人来说,会话界面确实能给予他们GUI所不及的功能。比如,年轻人已经开始不用键盘,通过手机话筒发送消息。而还有相当一部分人根本用不了图标用户界面,比如视力受损的人、老年人,以及根本不懂科技的人。Chris Maury就是其中之一。
2010年夏天,他24岁,在ImageShack实习。此时的他刚博士毕业,来到硅谷实现梦想。上班的地方离住的地方很远,早起晚睡使得他视力下降了。他去验光师那里,被诊断为视力退化,有可能最终失明。
Maury一心想在科技方面一展抱负,但现在不得不考虑怎么样在看不见的情况下继续使用电脑。其实在美国的盲人有两千万左右,对于这些人来说,就只能通过屏幕阅读器来上网了。
屏幕阅读器使用时,需用键盘操作光标的移动,光标每移动到一个地方,电脑就会读出此处的内容。屏幕阅读系统花费昂贵,而且使用者要经过一定的培训,有的人需要两次培训。在数字环境愈益发展的今天,屏幕阅读器也越来越复杂,对学习的人来说并不容易啊。
Maury的视力越来越差了,他就只能用盲人版 Twitter了(是的,Twitter也有盲人版),活动范围也很局限。他深刻明白,对于视力不好的人来说,使用科技是件多么恼火的事情!之后,他就有了发明声音界面的想法,这个想法传遍了整个硅谷。
他开始致力于将科技带回盲人的身边,创建了公司Conversant Lab,重点开发声音相关的App和服务。Conversant首先发明的是iPhone应用SayShopping,这款应用能让用户通过语音在Target.com上购物。Maury还想今年年底之前,将会话互动的因素让iOS开发者所用。他还想试着制造出全语音电脑环境的设备,并且希望该设备能通过头部运动来操作指令。“这些都完全有可能,只是需要时间去制作”,他表示。
2014年秋天,亚马逊突然推出了一款新产品Echo,是款圆柱形的黑色扬声器,顶端还有一圈蓝色的小灯,每次扬声器对外“说话”时,灯都会亮。Echo使用了远距离声音识别,即使在吵闹的房间里,也可以定位声音。它的目的是你可以与它对话,然后下订单等。
这款产品没有内置的虚拟界面,所以里面并没有什么特别的东西可看。科技媒体对款略带神秘的产品有些疑惑,有人还将它与《2001环游太空》中的神秘黑色石头相对比。
Echo里的软件叫Alexa,它可以预报天气、回答客观问题、创建购物清单、播放指定音乐,刚开始没什么太特别的。但时间久了,Alexa会熟悉用户的声音,开始讲点笑话,还会分别计时,从刚开始让人恼火的笨机器,变成之后聪明灵活的好帮手。
这让我们进一步认识了会话技术:会话设备只有在不断的使用中才能慢慢与用户建立良好的关系。各大公司也都意识到这点,所以在开发会话界面的过程中,尽量让它们招人喜爱,赋予它们魅力及温和的个性。比如微软在开发Cortana的时候,就与游戏光晕背后的工作室合作,使Cortana得声音富于变化,而不是那种干巴巴的机器读音。虽然开发过程困难重重,但是还是很值得。因为早期Cortana什么也不会,但人们还是很喜欢。
让虚拟助手这么讨喜,还有一个战略考虑。微软,Nuance等公司一致认为:只有当会话助手只有无处不在,真正了解用户,知道他的习惯、好恶的时候,才能发挥很大的作用。要达成这一目的,就要让人工智能进入到更多应用和设备。
亚马逊,Google,微软,Nuance以及SoundHound都在积极向开发者提供会话平台,他们知道,最了解用户的才能被留下来。所以不久的将来,我们的身边可能会多一位值得信赖的朋友,关系的亲密度不亚于闺蜜和基友哟。
via wired