资讯 业界
此为临时链接,仅用于文章预览,将在时失效

Alexa的印度“荒野大挑战”

作者:嫣然
2017/11/29 11:53

雷锋网按:亚马逊的闪耀新星Alexa近日登录印度,这是继德国美国英国之后Alexa即将征战的第四片土地。在此之前,Alexa 的支持语言只有英语和德语,相比之下,Google Assistant 已经支持 5 种语言,苹果 Siri 更是支持 24 种语言和 36 种方言。

原本在语言上就稍显落后的Alexa,此举可以说野心勃勃。根据 2001 年的统计,印度有 29 种语言的使用人口超过一百万,有 122 种语言的使用人口超过一万,除了英语和印地语两种全国性的官方语言之外,印度宪法认定的、在各个邦具有官方地位的语言还有 22 种。对于 Alexa 这样面向消费级用户和大众市场的语音交互产品来说,复杂的语言环境无疑是相当大的挑战。显然,Alexa在这里将直面它的终极挑战。它会一鸣惊人,还是遭受重大打击呢?

Factory Daily近日发表文章,深入阐述了Alexa登录印度所面临的困难,亚马逊为此所付出的努力,以及各方人士对此的看法。雷锋网在不改变原意的情况下,为您做如下编译:

Alexa的印度“荒野大挑战”

 她现代化,会说流利的英语,能帮助您预订出租车,找烹饪食谱,播放你最喜爱的音乐,并被她最喜爱的演员沙鲁克汗(Shah Rukh Khan)所深深吸引。她是一位典型的印度女士,她可能回答你所有的问题。她最喜欢的女演员是Emily Stone和Rachel Weisz,最喜欢的冰淇淋味道是薄荷巧克力片。她是Alexa,出生在一个美国籍的亚马逊家族,说着一口带印度口音的英语。

她是被训练成这样的。 Alexa是亚马逊的语音助理,印度是它推出的第四个国家。亚马逊有雄心把Alexa放入一切场景。进入你的手机。进入你的车。进入你整个家庭。甚至进入酒店和办公室。

Alexa在美国、英国和德国取得了一些早期的成功。世界各地有几十家公司把Alexa嵌入了它们的产品。在国际消费电子展上,福特、大众和奥迪展示了将Alexa嵌入仪表板的汽车。

Alexa的印度“荒野大挑战”

连接到互联网后,Alexa会试图回答你的问题,遵照你的命令。但印度将是Alexa的终极考验。 “语音助手在单语或双语国家运作良好。但印度是不同的。”Lattice Bridge Infotech(简称LBIT)的总经理Mohan Ram说,他自2001年以来一直从事语音识别技术领域。 

2001年刚开始的时候,Ram告诉投资者,他的公司将在五年内解决卡纳塔克邦的语言和方言问题。但是17年以来,他承认他只解决了80%的问题。他说:“每隔100公里语言就会变化,每30公里方言就会变化。”但他同意人工智能、机器学习和深度学习将会很大程度上改善这些问题。亚马逊正在以此为筹码,试图解决印度的复杂性。
早在亚马逊在印度推出Alexa的一年多之前,它已经开始了培训,以满足当地的需求。“Alexa了解口语词汇及其背景。印度与其他单一语言国家不同的是,我们要使用大量专有名词——可能是一个人名,一个地方,一个宝莱坞唱片的名称,一个词作者或一部电影。”Puneesh Kumar说,他是 Alexa体验与设备在印度的区域经理。
Kumar自2010年5月以来一直在亚马逊工作。最初是实习生,然后在亚马逊中国担任高级项目经理,并在亚马逊在中国市场推出期间工作。他最长的时间是作为亚马逊全球销售计划的总经理,工作了两年半,一直到领导Alexa在印度的实践之前。 

“我们不得不跳出英语思维的框架之外去思考。 我们要训练Alexa了解泰米尔语,印地语,泰卢固语,旁遮普语,马拉雅拉姆语中的专有名词。”Kumar说,他现在在加罗尔工作。

这些问题对印度来说是独一无二的,即使别的国家也有多种方言。例如,坐落在卡纳塔克邦边上的城市贝尔高姆,它从孔卡尼语、马拉地语和卡纳达语的混合中发展出了自己的语言。距离贝尔高姆386公里的乌杜皮,也是在卡纳塔克邦,那里的人们讲的语言是图鲁语,马拉雅拉姆语和卡纳达语的混合。

硅谷研究公司Constellation Research的首席分析师兼董事长Ray Wang表示:“鉴于印度人口众多,在这个国家分不同洲推出产品可能更好。” “亚马逊在能力上仍然落后于谷歌,但正在快速赶上。(成功)所需要的正是很多用户去测试和学习。”

 Alexa的印度“荒野大挑战”

Puneesh Kumar, Alexa体验与设备在印度的区域经理。

Alexa建立在人工智能和机器学习框架之上,可以在云端不断学习。亚马逊结合了云计算和人工智能的两项开创性技术,并以简单易用的语音作为用户界面入口。

Kumar说:“正是因为它机器学习的背景,因此每一句话都在帮助它学习。 Alexa基于自然语言理解(NLU),意味着基本上它能理解句子和上下文,并将其从文本转换为语音。这些情况因国家而异。在美国和英国,当人们谈论marks时,他们是指划痕。但在印度,marks通常是指成绩和分数。

Alexa也理解印度遵循着以十万和千万为单位的数字系统,而不是百万和十亿。 Alexa必须意识到这一点,Kumar说。它能识别UP(北方邦),MP(中央邦)和CM(首席部长)等缩写词。它也可以识别不同的PIN码。它还囊括了北印度词汇,如haldi,jeera和dhania,这些词不是英语单词,但是是常见的印度语单词。

为印度进行专项训练

准确的说,Echo设备的用户体验(Echo能即时连接到Alexa播放音乐,获取新闻和天气等信息,并使用语音控制智能家居)仍尚在发展中。FactorDaily加罗尔办公室对Echo询问“谁是Anand Murali”,得到了一个不正确的答案,而理想情况下它应该查询上下文,确定我们想问的是谁。 Google语音查询会在搜索结果的顶部显示Anand的LinkedIn(领英)个人资料。
Shonali Muthalaly在《印度教徒报》中写道,“这远非完美。”“Alexa仍在了解印度的过程中,所以当我要求她推荐餐馆、提供交通预测和路线推荐时,她回答的一团糟。”据推测,随着越来越多的印度人使用这个平台,结果会变得更好。
培训Alexa不容易,Kumar承认。亚马逊最初的语料集有限——大约有一万个。这被称为训练数据。Kumar不记得确切的数字了。然后有一种叫做测试数据的,它是无限的,是人类互动和万维网的混合体。
Kumar认为,Alexa尚不完美,所以只邀请了少数人使用。(此前亚马逊在印度当地挑选了一批公司高管和商务人士作为天使用户,将一部分 Echo 音箱赠送给他们试用。)随着越来越多的人进入Echo设备,Alexa将学习更多。“那时机器学习就大显身手了,并且开始识别训练数据中不存在的新东西......随着越来越多的人与设备交谈,语言会扩展。事情现在还不是应该有的样子,随着时间的推移会变得更好。”他说。
有一种叫做DWC(需求加权覆盖)的东西。是最受欢迎和最常说的词语列表。为了识别这些词语,Alexa寻找模式,声音,音素,背景,然后把它们放在一起,看看人们说的话可能是什么。一旦发现不匹配,则跟踪每个不匹配以改善体验。
早期时,Alexa知道Amitabh Bachchan是一名演员,甚至可以获取他的歌曲,但她会把Bachchan发音成Bakkan(遗漏了“chch”的发音)。随着时间的推移它在学习。Kumar说,Alexa要学习的大部分经验是用她的方式读出正确的方言和发音——不仅仅是英文,还有印度语和泰卢固语的流行词汇。 

 Alexa的印度“荒野大挑战”

Kumar说,如果Alexa能够理解对面的那个人,相当于得到了圣杯(最高奖赏)。 “无论如何,我们都希望Alexa了解话语背后的意图。我们根据意图来看大部分话语。”例如,播放歌曲,播放电影中的歌曲,播放带有某歌词的歌曲,或不使用播放这个词,给我唱首歌,帮我缓解一下心情——它们可能最终都要求Alexa获取相同的结果。Kumar说:“我们正尝试绘制相关性。”

如果用户在获取结果后的几秒钟内说“不”或改变询问,机器学习算法就会明白Alexa没有获取正确意图。即使这个输入只是用于训练。

亚马逊在训练Alexa时使用了机器学习和人工干预的混合,尤其是在同一个词有多个发音的时候。Kumar说:“我们得到的回应让人很有信心,然后我们用一个非常熟悉这个词的人做审查机制,以确保我们正确的理解了这些音素。”

但是不可能每次遇到这种词都这么做。Alexa会提取前20或30个词语进行这个过程,每当有一个这样的词语时,这个程序就会继续进行,这时候这个词语的表达水平已经更高了。

不过,Kumar说,这位女士(指Alexa)会有一个自己的声音,它不会随着从南到北的印度而变化,虽然亚马逊希望Alexa能够理解不同的文化、口音和对着麦克风说话的人的思维方式。 “我们看的是最终的综合声音。最终的声音是对机器,音素,词汇的调制,所有这些都以非常印度的声音进行预先录制,”Kumar说。

由于不可能录下每个词语,他们录制了一组词语创建了所谓的基本结构。 “我们采用了一个人声,然后把它与机器学习、语音和词典这些结合起来。我们把这个声音看作一个组合。”他说。

另外,因为一位女士(上文提到的人声的主人)不可能熟知所有的口音和语言,所以他们选择了多个人来录制。然而,在机器学习的帮助下,亚马逊已经成功地使Alexa的声音变得一致,无论你在印度的什么地方使用。 Kumar说:“在印度说话的Alexa会有一个自己的人格。” 

 “星际迷航”带来的灵感

第一天,在亚马逊完成语音助理Alexa在印度的全面推广之前,Alexa有10800个精确的技能。当Alexa在美国推出时,它只有13种技能。技能是基于语音的应用程序,如移动应用程序,它让用户能使用语音命令来操作应用程序。
亚马逊的Alexa语音服务和技能主管Steve Rabuchin告诉Wired,该公司受到了“星际迷航”电脑的启发——创建一个助手,让用户可以通过简单的语音命令来控制周围的一切。
亚马逊已经与印度的开发商合作,将流行的应用程序与亚马逊的语音助手整合在一起。对于旅行方面,有Ola,Goibibo,ixigo和Jet Airways。食物方面,有Faasos,Zomato,Freshmenu,Sanjeev Kapoor,达拉尔。音乐方面,有Saavn和Bollywood Hungama。运动方面,有ESPNCricinfo。新闻和教育方面有印度时报,NDTV,ABP Live,AajTak和Byju's。智能家居解决方案,他们拥有Syska和Silvan,UrbanClap和Housejoy则提供勤杂工服务。 

 Alexa的印度“荒野大挑战”

Kumar说,将Alexa与应用程序整合是很容易的。他说:“已经有年仅10岁的孩子建立起一门技术,还有年纪大又没有任何技术知识的人,他们也能够建立一门技术。

对于ixigo的首席执行官兼联合创始人Aloke Bajpai来说,Alexa是一个很好的传播平台。他说:“亚马逊非常非常雄心勃勃,我们期望他们能够在很短的时间内达到几百万台设备。

但Bajpai并没有将ixigo局限在Alexa上——他正在建立自己的语音助理Tara.“Alexa的使用是有限的...你问一些东西,然后它反应。它需要更积极主动,譬如如果一个长周末即将到来,它应该能够向你推荐一些东西,“Bajpai说,但是他同意,谷歌和亚马逊把重心放在语音助手之后,情况正在发生变化。他说:“语音合成得到了改善......在我们正在使用他们的API的基础上。”

在疯狂学习的同时,也有人为干预来塑造Alexa的人格。Kumar作为发言人在一封后续电子邮件中表示:“我们通过赋予Alexa特性属性和个人偏好来赋予她人格。“她对宗教是持不可知论的,政治上独立,同时是科学,技术,创新,多样性和社会进步的坚定支持者。”

Alexa可以成为女朋友还是忠诚的伴侣? Kumar说:“我们希望Alexa能够提供语音服务,成为陪伴者,并且可以在任何情况下你都可以与之交谈。 “如果你说'我压力很大',她会问你是否想听一些冥想音乐。”

雷锋网编译 via Factory Daily

长按图片保存图片,分享给好友或朋友圈

Alexa的印度“荒野大挑战”

扫码查看文章

正在生成分享图...

取消
相关文章