Facebook机器人理解自然语言，技术赶超谷歌SyntaxNet

Facebook 自然语言谷歌 MIT

2016/06/02 16:30

Facebook机器人理解自然语言，技术赶超谷歌SyntaxNet

图片来源：Getty Images。

先是微软、然后Facebook、现在是谷歌。又一次，互联网巨头们将目光聚焦在了同一个未来趋势上：聊天机器人。

这些公司许诺说，在未来的几个月和几年内，你可以像跟朋友聊天一样，与互联网服务商聊天。聊天机器人会即时回复你的提问、回应你的需求，甚至预测你的需求。跟老同学聊天约聚会的时候，你可以让OpenTable机器人找找有什么餐厅好吃。不用另外打开一个APP，你就能用Travelocity机器人订酒店。

不过，还有一个关键问题没有解决：打造一个真的可以聊天的聊天机器人。机器人可以以某些方式来模拟聊天，但是距离真正理解人们聊天的方式，还有很大的差距。上个月底，为了推动这方面AI技术的进步——并且与竞争对手争抢公关眼球——谷歌开源了SyntaxNet，公司自然语言理解技术所使用的工具之一（开源分享可以让更多的人来推动技术进步）。现在，为了不被超越，Facebook展示了自己的一项重要技术，一个称为DeepText的自然语言引擎。

Facebook还没有将这项技术开源。而且，公司也才刚刚开始在自己各项服务中使用DeepText。但是据Facebook称，DeepText让人们看到公司希望在未来加速自然语言理解的进展。为了打造系统，他们希望少一点依赖人类，多一点依赖数据——互联网上的海量数据。

理解万岁

谷歌和Facebook都在使用深度神经网络来推进他们的自然语言处理能力。深度神经网络在许多别的在线任务中都已经获得了成功，例如识别照片中的人脸、识别智能电话的语音指令，人们希望这些能够通过分析海量数据学会任务的软件和硬件网络，也能够成功学会理解语言，并以自然的方式回应人类语言。

谷歌新开源的系统“SyntaxNet”使用神经网络来理解句子中的语法逻辑。神经网络可以通过分析几百万张猫咪照片来学会识别猫咪，同样地，神经网络可以分析几百万个句子，从而学会理解语法——名词、动词、以及动词如何与名词联系起来等等。这种方法称为句法分析，很有用，但是也有局限性。人类必须将几百万个例句仔细标记，标出句子中的每一个部分，以及每个部分与句子剩余部分是什么关系，这样SyntaxNet才能从数据中学习。而且，即便是机器成功学会理解一个句子的语法，它还得更进一步才能理解一个聊天对话的完整意义。

但是，现在Facebook的研究人员说，他们已经将这项顶尖技术推向了全新领域。”（DeepText）帮我们弥补了数据库标记的不足。”Facebook工程总监Hussein Mehanna说，“它有非常巨大的结构。它可以通过无监管的方式来学习。”换句话说，Facebook的系统更多依赖数学，而非语法精度。

"他们说这话的意思是，关于语言结构，他们没有去教神经网络任何东西。”Chris Nicholson这样解释道，他是深度学习创业公司Skymind的创始人，他说Facebook的研究之前已经在一些公开研究论文中讨论过了。这很重要，他补充说，因为这可以打造更加灵活的系统——系统可以马上扩展到众多不同的情景。Facebook的系统可以像学英语一样，学会法语、西班牙语——只要将语言解构，将语言看做只是数学而已。据Mehanna说，DeepText已经能用20种不同的语言运行了。

聊啊聊

过去，研究人员使用仔细编码的规则来打造自然语言引擎——这是种困难又耗时的方法。这也是苹果打造Siri的方法。通过打造可以自主学习的系统，谷歌和Facebook等公司希望系统不需要很多人类干涉，就能够自己成长、越来越智能。不过，我们还没实现这个目标。Facebook的方法还在早期阶段，而且并不是所有人都相信Facebook的系统真像公司说的那么好用。

Noah Smith是华盛顿大学的计算机科学家，他的专业领域就是自然语言理解。他说不只有Facebook想通过未经标记的数据实现理解。他说，基于Facebook的一篇近期研究论文，他不觉得公司的方法特别酷炫。不过，他和许多人都认为，这是未来研究会探索的方向。

Facebook机器人理解自然语言，技术赶超谷歌SyntaxNet

当用户聊天时出现以下聊天内容，软件会自动识别出用户想打出租车，并出现叫车按钮：“我需要打车。”、“我们打个车去吧。”、“打个车。”、“叫个出租。”、“但是我得打个车。”当用户说“嗨！”、“我不需要打车。”和“我想骑毛驴。”的时候，软件不会出现叫车按钮。图片来源：Facebook。

Mehanna说，Facebook会在今年夏天发表更多关于DeepText的最新研究论文。他说，公司正在开始测试该项技术，作为支持Facebook Messenger内部聊天机器人的工具。据Mehanna说，系统可以在你平时跟朋友聊天的时候自动识别出你想打出租车。而且，我们有理由相信Facebook可能在此方面有一种竞争优势——数据。

要学会自然语言，你需要大量的自然语言——以数字化的形式。以前这是难以实现的。但是这对Facebook来说是小菜一碟——公司的社交媒体上，每一天都有几百万真实的聊天对话在发生。据Mehanna称，人们每分钟发布的新消息多达40万条，而这些新消息下面，每天都会发布8千万条评论。

对，这也就是说，Facebook利用自己网站上生成的数据来训练DeepText，而公司以外的研究员很难验证公司所说的技术。不过，这个数据也至关重要。现在，Facebook上几乎所有的聊天都是人与人之间的进行的。但是有了正在倾听和学习的机器人，也许有一天，我们也会在Facebook上和机器人聊天。

Via 《连线》杂志

Facebook机器人理解自然语言，技术赶超谷歌SyntaxNet