IBM 的「AI 杠精」登顶 Nature 封面，曾打败顶尖人类辩手一战成名

作者：付静

2021/03/18 18:11

谈及辩论，在行的除了人类 BB King，还有“机器杠精”。

早在 2018 年 6 月，IBM 的 AI 辩手 Project Debater 击败以色列国际辩论协会主席 Dan Zafrir 和 2016 年以色列国家辩论冠军 Noa Ovadia，一战成名。

转眼 3 年过去，号称「首个能在复杂话题上与人类辩论的 AI 系统」的 Project Debater 更是出现在最新一期 Nature 杂志封面上。

IBM 的「AI 杠精」登顶 Nature 封面，曾打败顶尖人类辩手一战成名

AI 走出「舒适区」

2021 年 3 月 17 日，IBM Research 题为 An autonomous debating system（自主辩论系统）的论文正式发表于 Nature。

IBM 的「AI 杠精」登顶 Nature 封面，曾打败顶尖人类辩手一战成名

AI 被定义为“可以执行有智慧的生物所能完成的任务的机器” 。而众所周知，争论、辩论是体现人类智力的一个基本方式，也是人类众多活动所必需的、人类社会共有的能力。因此，提升计算机对自然语言的理解和处理能力、发展论证技术，已成为 AI 研究的一个新兴方向。

多年前，即便是最为先进的 AI，也不能很好地做到对人类话语进行分析、确定论据如何用于支持结论（这一过程被称为论点挖掘）。

后来，随着 AI 技术的进步和论证技术工程日益成熟，加之商业需求强烈，这一领域开始迅速发展。雷锋网了解到，当前全世界有 50 余个实验室正在研究这一问题，其中就包括所有大型软件公司的研究团队。

来自英国邓迪大学辩论技术中心（Centre for Argument Technology）的 Chris Reed 认为，这一领域之所以能呈现快速发展之势的一个原因便是：AI 系统可识别大量文本中语言使用的规律，这已在许多应用中产生了变革，但其本身在论点挖掘方面却并不成功。

继续深究便能发现其原因：论点结构太多变、太复杂、太微妙，且常常太隐蔽，难以像句子结构那样易识别。

基于这一大背景，IBM 提出了 Project Debater，即一个可以与人类打辩论的自主系统，这一系统通过扫描储存了 4 亿篇新闻报道和来自维基百科的内容。

IBM 的「AI 杠精」登顶 Nature 封面，曾打败顶尖人类辩手一战成名

论文中，IBM 对其系统架构进行了完整的描述、全面系统的评估。

值得一提的是，IBM 强调了 AI 与人类辩论、AI 在游戏中挑战人类之间的根本区别。

IBM 认为，后者是过去几十年里 AI 研究学者们主要追求的经典挑战，它尚存在于 AI 的“舒适区”内——而 AI 与人类辩论显然意味着 AI 已走出了“舒适区”，毕竟在辩论中人类仍占上风，需要新的范式才能取得实质性进展。

正如 Chris Reed 评论的那样：这一论文表明，该领域的研究已取得了长足进步。

Project Debater 成为工程壮举

在 Chris Reed 看来，Project Debater 是一个巨大的工程壮举。

具体而言，Project Debater 涵盖了：

文本中收集、解释与论证相关的材料的新方法
修复句子语法的方法（主要是为了系统在论证时重新部署所提取的句子片段）

围绕着关键主题，上述方法与人类预先准备的信息结合在一起，将提供相关的知识、论证和反驳。实际上，这个知识库还将以人类预先写好的句子片段作为补充，这样一来，在打辩论时准备、介绍演示文稿也不在话下。

其主要流程是：

查询相关论据的高倾向性句子；
使用神经模型，对句子代表论据的概率进行一个排序；
结合神经网络、基于知识，对每个论点立场做一个分类。

Chris Reed 对 Project Debater 的评价是：

无论是作为一个 AI 系统，还是一项 AI 领域的重大挑战，Project Debater 都是非常有野心的。

这背后的逻辑是，几乎所有的 AI 研究都把眼光放得很高，而一个关键问题就在于获取足够的数据、计算出有效解决方案。对此，Project Debater 通过一种双管齐下的方式解决了这一障碍：一方面，仅着眼于百余个辩论主题；另一方面，从庞大的数据集中获取材料作为支撑。

无疑，Project Debater 目前并非做到了完美的程度。

目前来看，或许这一系统最大的弱势在于难以模仿人类辩手的连贯性和流畅性，其实这与其处理程序选择、提取和组织语言的水平有关。

当然这种限制并不仅仅出现在 Project Debater 身上——尽管人们对论证的研究已经进行了两千年，但人们对其结构仍然知之甚少。毕竟，对于一个连贯的论证推理模型而言，辩论研究的重点不同（是语言使用、认识论、认知过程还是逻辑有效性），关键特征也将有很大的不同。

因此，什么是好的论点模型，本身就是一大难题。

AI 辩手一战成名

Project Debater 在实战中表现如何，想必密切关注 AI 领域发展的小伙伴早有耳闻。

首先在 2018 年 6 月 18 日，IBM 旧金山办公室，Project Debater 迎战两位顶尖人类辩手：以色列国际辩论协会主席 Dan Zafrir 和 2016 年以色列国家辩论冠军 Noa Ovadia。

IBM 的「AI 杠精」登顶 Nature 封面，曾打败顶尖人类辩手一战成名

在两场以「4 分钟开场演讲-4 分钟反驳-2 分钟论证总结」为流程的辩论中，人类辩手首先发言，然后 Project Debater 进行反驳。

IBM 的「AI 杠精」登顶 Nature 封面，曾打败顶尖人类辩手一战成名

Project Debater 通过处理大量文本，就主题构建出了结构良好的演讲，观点清晰明确。据外媒 Engadget 报道，Project Debater 抛出了不少自方观点，同时还根据对手发言做了流利的反驳。最终，Project Debater 比 Dan Zafrir 多获得 9 票，赢得了比赛。

随后在 2019 年 2 月 11 日，Project Debater 与 2016 年世界大学辩论锦标赛总决赛选手、2012 年欧洲大学辩论锦标赛冠军 Harish Natarajan 现场较量，最终人类辩手获得胜利。

2019 年 11 月 21 日，剑桥大学举办了一场辩题为“AI 诞生是否弊大于利”的比赛，Project Debater 再次迎战人类辩手。

从结果来看，Project Debater 的支持率为 51％，以微弱的优势取胜。

但抛开票数来看，不少人认为：

IBM AI 机器人在很多方面的表现远远比不上人类辩手，通过这场辩论赛可以明显反映出，AI 辩手与人类辩手之间还存在着巨大的差距，比如句子的结构不正确，或发表无法令人信服的论点。

不过，当时 IBM 也对 Project Debater 做了新的改进，比如评估出质量更好的论点、检测出人类辩手词汇冗余的论点，甚至基于一个笑话库，变得幽默起来。

古罗马时期，著名政治家、哲人西塞罗曾说过：

辩才是人类最光辉的美德之一。

自苏格拉底时期起，辩论就是人类生活最为重要的一部分，理性、智慧之光闪耀其中。未来 AI 如何更好地拥有这项技能，我们拭目以待。

引用来源：

https://www.nature.com/articles/d41586-021-00539-5

https://www.nature.com/articles/s41586-021-03215-w

雷锋网雷锋网雷锋网