半个世纪之前,我们在电影《2001太空漫游》中初次遇见了感觉敏锐的计算机Hal 9000。而50年之后,我们基本能用声音指挥计算机,更期望他们不只听见我们,还要听懂我们。但为了真正改善我们的生活,移动设备除了处理所说的话,还要处理我们的意图,以及我们所处情境。
开车时,手机不应期望你去触碰它;睡觉时,它要清楚要把来电直接送至语音信箱,除非是紧急来电,而且它也应该能弄清楚来电原因;自拍时,你应该只用说“拍张自拍照”就好了。简单地说,智能手机应该名副其实。
第二代Moto X的Moto Voice与Moto Assist软件就以此为目标,而公司产品管理高级总监Mark Rose也对开发过程作出了阐释。
手机要具有适应性与反馈性,为此Moto X就得时刻听取来自用户以及情境氛围暗示的口令。这种行为由软件与硬件间复杂的相互作用产生,来电时,如果是非必须接听,那么它就会淡入屏幕背景,而这一动作则是来自手机的传感器以及软件的结果。它们会同时分析输入信息,引发立即回应。这一切的妙处都发生在界面的幕后。
Rose说:“所有这些进程都会通过某种方式连接和分离,无缝使用。所以从用户的角度说,只需对它说话,它就会为你办事了。”
让智能手机听从指令是一项巨大挑战,麦克风的信号必须过滤掉背景杂音,比如附近的交谈声、音乐声、电视节目的声音。
想想人类是如何在潜意识里运用脑力,比如在人声嘈杂的聚会上,人脑就会自动无视所有其他人的聊天声,只关注自己参与的对话。经过训练后,Moto X能在其他人的杂音中识别出用户声音,而这涉及到性别、口音以及各种语言的计算机处理。
Rose对此表示:“测试与改善语音性能尤为艰难,人们是通过训练才理解的语音,但在移动设备上使其奏效则存在着很多细微差别。我们已进行了很广的内部测试,但真正的工作是在把软件推向公众之后。到那时我们拥有更大的样本规模来改善技术。”
所谓的情境感知源自设备一系列红外传感器、加速计,以及麦克风对于用户样本数据的协调。当用户对麦克风说话,或是在屏幕前面挥手,这些输入数据会经过“情境引擎”软件处理。软件会推测用户在当下所做的是什么,之后再决定最佳回应。在很多情况下,正确的反应也许就是不打扰用户。例如,在驾驶的时候,Moto X就能调至纯语音命令。
当绝大多数人在使用自己的设备,思考它们会如何反应的时候,Moto X软件设计团队花费了很多时间研究被称之为“无用户交互”的东西。这是一个有趣的设计问题:当你在绝大多数时间不与手机互动,会发生什么?而Rose对此给出的答案就是,手机应该能想清楚这问题。
拿Rose的例子来解释就会非常清晰。某天早晨6点,正当他在上班路上时,用口令给远在加州的妻子发了一条信息,告诉她现在室外有多冷。她回复道,”你知道我这里是凌晨4点吗?“他回复说,”我没意识到你的手机会叫醒你,我的手机就不做这种事。“
via medium