图灵测试先天不足？解决人工智能威胁论争论的四个困难

2015/09/28 15:55

【编者按】本文是“人工智能学家”举办2015世界人工智能系统智商测试排名活动的第二篇。文章重点阐述了图灵测试的先天不足和解决人工智能超越人类智慧争议面临的四个困难。

图灵测试先天不足？解决人工智能威胁论争论的四个困难

随着互联网大数据的兴起，以及深度学习等机器学习算法在互联网领域的广泛应用，人工智能再次进入快速发展的时期。但是，不同领域的科学家、企业家（如物理学家霍金，微软创始人比尔盖茨等）对人工智能的未来表达了担心，由于他们的影响力，人工智能威胁论因此得到广泛传播。

与之相对地，人工智能领域科学家对人工智能威胁论提出了反驳意见，其中就包括Facebook人工智能实验室主任、NYU计算机科学教授Yann LeCun，百度首席科学家、斯坦福大学计算机科学系和电子工程系副教授吴恩达，以及中国科学院自动化所教授、人工智能领域专家王飞跃等。

应该说人工智能威胁论引发争论背后，本质上是人工智能的智力发展水平能不能定量评测的问题。对于这个问题，前人研究者已经做出大量工作。

图灵测试的先天不足

测试人工智能系统是否具有智能最著名的方法是”图灵测试“。1950年，图灵发表论文《Computing Machinery and Intelligence》提出了“机器思维”的概念，提出一位测试者在与被测试者相互隔离不能进行直接交流的情况下，通过信息传输，和被测试者进行一系列的问答，在经过一段时间后，测试者如果无法根据获取的信息判断对方是人还是计算机系统，那么就可以认为这个系统具有同人类相当的智力能力，也就是说这台计算机是有思维能力的，这就是著名的“图灵测试”(Turing Testing)。

图灵在论文中这样定义图灵测试：

“我们称下面这个问题为“模仿游戏”。游戏参与者包括一个男人，一个女人，以及一个任意性别的询问者。询问者与另两个人待在不同的房间里，并通过打字的方式与他们交流，以确保询问者不能通过声音和笔迹区分二者。两位被询问者分别用X和Y表示，询问者事先只知道X和Y中有且仅有一位女性，而询问的目标是正确分辨X和Y中哪一位是女性。另一方面，两位被询问者X和Y的目标都是试图让询问者认为自己是女性。也就是说，男性被询问者需要把自己伪装成女性，而女性被询问者需要努力自证。现在我们问：如果我们把“模仿游戏”中的男性被询问者换成计算机，结果会怎样？相比人类男性，计算机能否使询问者更容易产生误判？”。

图灵测试并没有定义智能的范畴，而只能作为一个人工智能的充分条件，关于这一点，图灵在论文中写道：

“机器能否拥有智能，为了回答这个问题我们应该首先定义‘机器’和‘智能’。一种可能性是根据大多数普通人的日常理解去定义这两个概念，但这样做是危险的。在这里我并不打算定义这两个概念，可能有人会说这项测试对机器而言过于严格 —— 毕竟人类也无法反过来成功伪装成机器，这只需检查算术的速度和正确度即可辨别。难道被认为拥有智能的机器就不能表现出和人类不同的行为么？这是一个很有力的反对意见，但至少不管怎样，假如我们有能力制造出一个可以成功通过测试的机器的话，也就无需为这个反对意见烦恼了。”

图灵测试先天不足？解决人工智能威胁论争论的四个困难

如上图所示，图灵测试与人工智能的关系可以用集合的概念进行阐述。从图中可以看到“所有人类行为”对应的集合“和所有智能行为”对应的集合有交集但又互有不同。虽然“在全部智能行为”中有部分能力是人类靠自身力量无法完全实现，但人类可以被认为是有智能标准体，因此，能达到“人类水平”的部分，也就是两个集合交集的那个部分，就应该被认作是“拥有智能”的特征。而且，人类的所有行为并不总是和智能相关。图灵测试要求机器全面模拟“所有人类行为”，其中既包括人类“智能”的部分，也包括人类的“非智能”行为，由此可得出结论：通过图灵测试是 “拥有智能”的一个有效的充分条件，而非必要条件或充要条件。（该内容引自微软研究院）

图灵测试经常用来检验机器是否具备人的智能，但总体看，图灵测试的方法受人为因素干扰太多，严重依赖于裁判者和被测试者的主观判断，因此往往有人在没有得到严格验证的情况下宣称其程序通过图灵测试，例如2014年6月英国雷丁大学客座教授凯文•沃维克宣称一款名为“尤金•古特曼(Eugene Goostman)”的计算机软件通过了测试，但是测试结果充满争议，例如机器人只要能够通过30%的评判标准即可被判定通过图灵测试，另外这个计算机软件通过扮演一名年仅13岁，且第二外语为英语的男孩让参与测试的裁判大幅度降低了测试难度。

中国科学院自动化所研究员王飞跃在“关于人工智能九个问题”中也对图灵测试存在的问题进行了讨论，他的意见主要有以下两点：

人类的智能并不是一个单一的对象，而是有多个类别组成，同样人工智能对应也是多类别组成。图灵测试究竟测试的那些类别并不明确，从实践上看，目前图灵测试仅仅局限在语言智能等特定小领域里，不具备代表性。
图灵测试并不是考官对一台计算机测试后就可以宣布其是否拥有智能，图灵测试的本意是指一个广义的人类做个为整体的考官，其测试的时间段也不是具体的一段时间而是广义的时间段，即所有的人类在所有时间都分辨不出人与机器之后，才算其人类智能与人工智能等价。

从上述讨论可以看出，图灵实验只对人工智能系统是否具有人类智能回答“是”或“否”，并不对人工智能系统的发展水平进行定量分析，而且测试的智能或智力种类还过于单一；在测试方法上存在漏洞，容易被测试者找到漏洞从而产生作弊行为。总的来说，图灵实验目前还无法承担定量分析智能系统智力发展水平的需求。

解决人工智能威胁论争论的四个困难

2015年3月，Stuart Geman，Donald Geman等研究在National Acad Sciences发表论文“Visual Turing test for computer vision systems”，提出的视觉图灵测试“Visual Turing test”，目的是测试计算机能否能像人类那样描述一张图片。

除此之外，2015年1月，在德克萨斯州召开的美国人工智能大会（AAAI-15）上，学者专门组织了研讨会（Beyond Turing Test），对图灵测试进行深入的讨论，并对智能的评测标准提出了新的建议。但是这些测试也存在分析范围单一，或无法定量分析的问题。

总体看，目前包括图灵测试在内的各种方案对判断一个人工智能系统是否和人一样拥有同等水平的智力、高低程度如何、发展速度比率如何，上述中研究没有涉及到可具体执行的思路和方案。我们认为这些问题长时间存在，主要与下面提到的四点困难有关。

1、没有统一的模型和测试方法对不同的人工智能系统进行测试。人工智能无论从理论研究还是从应用实践都存在众多分支和发展方向。在理论上人工智能分为三大学派，如符号主义（Symbolicism）或计算机学派（Computerism）；连结主义或生理学派（Physiologism）；行为主义（Actionism）或控制论学派（Cyberneticsism）等。在应用实践上，人工智能可以应用的方向包括符号计算、模式识别、机器翻译、机器学习、问题求解、逻辑推理与定理证明、自然语言处理、分布式人工智能、计算机视觉、智能信息检索、专家系统等等。

图灵测试先天不足？解决人工智能威胁论争论的四个困难

每种具体的人工智能系统往往只具备一个或若干上述提到的功能。例如IBM的深蓝强于计算能力，在国际象棋方面可以与人类对手一决高下；沃森系统拥有庞大知识库系统，因此可以在常识问答比赛中击败人类选手。因为没有统一的模型可以涵盖这些人工智能系统，就无法形成统一的测试方法进行测试和比较。如图1.2所示，人工智能系统A 在计算能力上得分为100，人工智能系统B 在计算机视觉识别上得分为80，人工智能系统C在机器翻译测试得分为90分，我们仍然无法得出结论A的智力能力高于C，C的智力能力高于B的结论。

2、没有统一的模型和测试方法能够同时对人工智能系统和人类进行测试，这也是当前人工智能威胁论产生最重要的原因之一。因为没有人工智能系统和人类智能水平统一的测量方法，人工智能威胁论宣扬者往往将计算机或软件系统表现强大的领域作为标准，例如计算能力，历史，地理等常识的掌握能力等，而忽略诸如图像识别能力，创新创造的能力，发现规律的能力等，对于这个原因产生的问题，人工智能威胁论反驳者往往无法拿出定量的数字结果进行反驳。

目前虽然针对人类智力能力的评测方法已经非常成熟，但过去100多年的发展和改进过程中，这些方法并没有考虑到人工智能系统的特点和发展水平，因此很难将人类的智商测试方法拿来测试人工智能系统。例如目前绝大多数人工智能系统就无法完成图1.3所示题目，因为测试者需要首先识别图像中的问题，并与图中的各个图形特征关联起来。做不到这一点，回答问题就无法进行下去。

图灵测试先天不足？解决人工智能威胁论争论的四个困难

图1.4所示的人类智商测试的题目需要测试者运用铅笔，钢笔等工具绘制图形。用手操作物体完成任务，解决问题是人类普通的能力，但对大多数人工智能系统因为没有相应输出系统或操控设备，于是无法完成图1.4所示的测试。

图灵测试先天不足？解决人工智能威胁论争论的四个困难

3、人工智能系统没有形成智力发展水平测试的标准输入输出接口。例如如图灵测试的问题问答，IBM深蓝与国际象棋大师的比赛，沃森系统与人类选手进行知识比赛等时，研究人员就需要研发不同的输入输入接口以满足测试需求。对于更多人工智能系统，在设计时往往由于只考虑到满足工作需求，而没有设计和开发与测试系统进行完整交互的能力，如图1.5所示。这个问题如果没有得到解决，对于发展新的统一的人工智能测试也将带来困难。

图灵测试先天不足？解决人工智能威胁论争论的四个困难

4、没有关于人工智能智力发展水平的历史测试统计数据。由于针对人工智能系统一直没有产生定量分析方法，这个问题在今天依然存在。因为历史数据的缺失，研究者就无法绘制类似图1.6所示的人工智能系统智力水平的发展示意图，也无法将人工智能系统与人类智力发展水平进行比较。因此很难定量的对未来发展趋势进行预测。上文我们提到Facebook人工智能实验室主任Yann LeCun在反驳人工智能威胁论时虽然给出了相关发展趋势图，但因为不是通过历史数据预测得来，因此说服力大打折扣。

图灵测试先天不足？解决人工智能威胁论争论的四个困难

关于这些问题如何解决，目前各国的人工智能专家都在进行研究。这一问题并不是无法解决的，而一旦能够有更完善的系统对人工智能系统与人的智力水平作出客观真实的比较和评价后，人工智能威胁论的说法也会产生又会何去何从呢？我们拭目以待。