图片来源:Getty Images。
先是微软、然后Facebook、现在是谷歌。又一次,互联网巨头们将目光聚焦在了同一个未来趋势上:聊天机器人。
这些公司许诺说,在未来的几个月和几年内,你可以像跟朋友聊天一样,与互联网服务商聊天。聊天机器人会即时回复你的提问、回应你的需求,甚至预测你的需求。跟老同学聊天约聚会的时候,你可以让OpenTable机器人找找有什么餐厅好吃。不用另外打开一个APP,你就能用Travelocity机器人订酒店。
不过,还有一个关键问题没有解决:打造一个真的可以聊天的聊天机器人。机器人可以以某些方式来模拟聊天,但是距离真正理解人们聊天的方式,还有很大的差距。上个月底,为了推动这方面AI技术的进步——并且与竞争对手争抢公关眼球——谷歌开源了SyntaxNet,公司自然语言理解技术所使用的工具之一(开源分享可以让更多的人来推动技术进步)。现在,为了不被超越,Facebook展示了自己的一项重要技术,一个称为DeepText的自然语言引擎。
Facebook还没有将这项技术开源。而且,公司也才刚刚开始在自己各项服务中使用DeepText。但是据Facebook称,DeepText让人们看到公司希望在未来加速自然语言理解的进展。为了打造系统,他们希望少一点依赖人类,多一点依赖数据——互联网上的海量数据。
谷歌和Facebook都在使用深度神经网络来推进他们的自然语言处理能力。深度神经网络在许多别的在线任务中都已经获得了成功,例如识别照片中的人脸、识别智能电话的语音指令,人们希望这些能够通过分析海量数据学会任务的软件和硬件网络,也能够成功学会理解语言,并以自然的方式回应人类语言。
谷歌新开源的系统“SyntaxNet”使用神经网络来理解句子中的语法逻辑。神经网络可以通过分析几百万张猫咪照片来学会识别猫咪,同样地,神经网络可以分析几百万个句子,从而学会理解语法——名词、动词、以及动词如何与名词联系起来等等。这种方法称为句法分析,很有用,但是也有局限性。人类必须将几百万个例句仔细标记,标出句子中的每一个部分,以及每个部分与句子剩余部分是什么关系,这样SyntaxNet才能从数据中学习。而且,即便是机器成功学会理解一个句子的语法,它还得更进一步才能理解一个聊天对话的完整意义。
但是,现在Facebook的研究人员说,他们已经将这项顶尖技术推向了全新领域。”(DeepText)帮我们弥补了数据库标记的不足。”Facebook工程总监Hussein Mehanna说,“它有非常巨大的结构。它可以通过无监管的方式来学习。”换句话说,Facebook的系统更多依赖数学,而非语法精度。
"他们说这话的意思是,关于语言结构,他们没有去教神经网络任何东西。”Chris Nicholson这样解释道,他是深度学习创业公司Skymind的创始人,他说Facebook的研究之前已经在一些公开研究论文中讨论过了。这很重要,他补充说,因为这可以打造更加灵活的系统——系统可以马上扩展到众多不同的情景。Facebook的系统可以像学英语一样,学会法语、西班牙语——只要将语言解构,将语言看做只是数学而已。据Mehanna说,DeepText已经能用20种不同的语言运行了。
过去,研究人员使用仔细编码的规则来打造自然语言引擎——这是种困难又耗时的方法。这也是苹果打造Siri的方法。通过打造可以自主学习的系统,谷歌和Facebook等公司希望系统不需要很多人类干涉,就能够自己成长、越来越智能。不过,我们还没实现这个目标。Facebook的方法还在早期阶段,而且并不是所有人都相信Facebook的系统真像公司说的那么好用。
Noah Smith是华盛顿大学的计算机科学家,他的专业领域就是自然语言理解。他说不只有Facebook想通过未经标记的数据实现理解。他说,基于Facebook的一篇近期研究论文,他不觉得公司的方法特别酷炫。不过,他和许多人都认为,这是未来研究会探索的方向。
当用户聊天时出现以下聊天内容,软件会自动识别出用户想打出租车,并出现叫车按钮:“我需要打车。”、“我们打个车去吧。”、“打个车。”、“叫个出租。”、“但是我得打个车。”当用户说“嗨!”、“我不需要打车。”和“我想骑毛驴。”的时候,软件不会出现叫车按钮。图片来源:Facebook。
Mehanna说,Facebook会在今年夏天发表更多关于DeepText的最新研究论文。他说,公司正在开始测试该项技术,作为支持Facebook Messenger内部聊天机器人的工具。据Mehanna说,系统可以在你平时跟朋友聊天的时候自动识别出你想打出租车。而且,我们有理由相信Facebook可能在此方面有一种竞争优势——数据。
要学会自然语言,你需要大量的自然语言——以数字化的形式。以前这是难以实现的。但是这对Facebook来说是小菜一碟——公司的社交媒体上,每一天都有几百万真实的聊天对话在发生。据Mehanna称,人们每分钟发布的新消息多达40万条,而这些新消息下面,每天都会发布8千万条评论。
对,这也就是说,Facebook利用自己网站上生成的数据来训练DeepText,而公司以外的研究员很难验证公司所说的技术。不过,这个数据也至关重要。现在,Facebook上几乎所有的聊天都是人与人之间的进行的。但是有了正在倾听和学习的机器人,也许有一天,我们也会在Facebook上和机器人聊天。
Via 《连线》杂志