机器学习的先天性问题：目标是模仿人类，实际行动却往往背道而驰

2018/03/29 12:05

雷锋网 AI 科技评论按：曾任 Uber 人工智能实验室负责人、纽约大学心理学教授 Gary Marcus 今年 1 月发表过一篇泼冷水文章，提醒领域内的研究者注意深度学习的种种问题（https://arxiv.org/abs/1801.00631），并紧接着又发了一篇讨论人工智能的天赋的文章（https://arxiv.org/abs/1801.05667）。AAAI 前主席、人工智能长期研究者俄勒冈州立大学荣誉教授 Thomas G. Dietterich 近期也沿着这个话题发表了一篇公开文章，阐释了自己的不同观点。雷锋网 AI 科技评论全文翻译如下。

机器学习的先天性问题：目标是模仿人类，实际行动却往往背道而驰

Gary Marcus 近日的文章中继续着他关于机器学习的先天性讨论。正当我有某种与他相背的观点冒出时，我想到，他一定会提出一个有趣的问题，从广义的AI 中间层来看，怎样先天性的知识、结构、和算法才是必须具备的？从这个角度，我会用一个简单的「先天性 KSA（innate knowledge, structure, algorithm）」来表示那些需要在AI系统学习过程中建立的知识、结构和算法。于是，当这个系统与实际经验相结合以后，它就会变成具有更广泛能力的 AI 系统。

Marcus 主要关心那些具有和人类一样广泛能力的 AI 系统。在他论文的最后部分，他描绘了两种方法论，想要通过它们来说明先天性 KSA 这个概念中需要的是什么内容：这两种方法论是「简化」策略和「自上而下」的策略。谷歌 DeepMind 的 AlphaZero 系统作为一个简化策略的例子很好地说明了这个策略的意义。这个策略的方法论过程是通过在 AI 系统构建一个或者几个更小的任务集，然后逐步扩大任务集，并且在这个过程里，根据需要去添加或者移除 KSA。之后如果任务集变得足够广，那么我们就希望能够找到精通所有任务的最小的 KSA，用它来构成我们想要理解的「先天性 KSA」。（Marcus 叫这个过程「简化」，因为为了创造 AlphaZero，DeepMind 团队删除了 AlphaGo Zero 的某些部分，例如棋盘上的旋转和映射。也许叫「任务驱动最小主义」会更好。）

「自上而下」策略包括研究人类（或其他智慧生物）自身的 KSA 来确定他们的先天性 KSA，把这些编码进 AI 系统，然后测试这些系统，看看系统能否精通我们希望他们精通的任务种类。（「自上而下」不是一个好名字，也许我们应该叫它「从生物学上迁移」。）

说到这里，很快我们就清楚，这两种策略都不是特别有效。简化策略偏向增加那些和已经精通的任务相似的任务，就像我们看到的，AlphaZero之所以选择国际象棋和日本象棋，是因为它们都是双玩家、信息完备、零和博弈的棋盘游戏。而当中存在一种困境，新任务只不过是和现存的任务同构，在 KSA 中没有产生新的东西。你可以认为一般的机器学习框架，比如多类别分类器、多标签分类器、多例分类器、上下文推理和强化学习是这个方法论的典型结果：我们发现了一个任务集，其中的所有任务都能被一个一般的机器解决，然后因为这个想法太吸引人，以至于我们不再把机器往更功能更加完善的地方推广。作为工程方法论，这可以说差强人意，但它仍回答不了基本的先天性 KSA 问题。

（注，Marcus 质疑「确定最小 KSA 需要制造一个人类级别的 AI 系统」这个命题的重要性，但是我认为这是关乎先天性的最重要科学问题。Marcus 不断提醒我们需要认识了解先天性的 KSA，我也赞同这点。然而科学上存在的问题是，KSA 需要什么？如何将其实现？机器学习相关研究人员有三个动机去寻找最小 KSA。第一，我们试图定位这个基本的科学问题所在的位置。第二，任何不作要求的额外 KSA 一定是能够或者应当被学习过的。作为一个机器学习相关的研究人员，他会试图让 AI 系统尽可能学得多。第三，所有没有学习到的 KSA 必须手动编程。实践显示我们不是非常擅长这类编程。计算机视觉最新的前沿来自用机器学习表征方法来代替手动编辑中间层表征方法，比如 SIFT 和 HoG。）

「从生物学迁移」策略的效果甚至更差。因为无论是生物学家，神经科学家，或者是认知心理学家，都不可能从现有生物学系统中准确表述什么是 KSA。我们可以这样定义 KSA，「社会要素以及他们订立契约的状态」（Marcus，引用自 Elizabeth Spelke），但是在表述一个 AI 系统的能力时，这一点也不明显。这些能力是在人类（通常是婴儿）使用自身一个小的任务集下测量得到的。在 AI 系统中表示这些小的任务集是比较容易的，但这样测得的 KSA 对于之后的学习通常是没有什么帮助的。Marcus 频繁引用卷积神经网络（CNN）的发展成果作为这个方法论发展的闪光点。CNNs 的起源通常要追溯到 Fukushima 的神经感知机（1980），神经感知机最早是由 Hubel 和 Wiesel 发表的关于视觉皮层结构的假设所激发的想法。但即使在最初的论文中，Fukushima 也提醒到「我们对图像识别在脑中的机制知之甚少，而且似乎不大可能只从传统的生理学实验去了解它。所以我们试着稍微从不一样的角度接近这个问题。如果我们能做一个神经网络模型，它能像人类一样识别图像，那么这个模型就会给我们一个很有力的线索去理解大脑的神经机制。」于是我们观察到，在 CNNs 的例子中，就算我们希望这个模型能帮助我们理解神经科学，但是事实上，模型当中的结构最初还是由数学上的要求推动的，而不是相反。

还存在第三种目前「认知体系结构」的研究团体（例如，John Anderson，Allen Newell，John Laird，详见 https://en.wikipedia.org/wiki/Cognitive_architecture ）在追求的方法论。在这个方法论中，他们提出计算体系结构，并通过在各式各样的生理学实验上关于人类表现的量化预测来对这个体系结构进行评价。每一个新的实验在现有的体系结构中施加一个额外的约束，引起体系结构的改变。在这些体系结构中，学习过程扮演的角色不断变化。尽管其他形式的学习已经借由把他们视为额外的任务被组合起来了，但我们主要的关注点仍然集中到技巧的学习和短时记忆的模型上。这个方法论的缺点在于它通常需要我们为每一个任务编写新「程序」。从这个意义上来看，认知体系结构和计算机结构是相似的。他们限制计算的组织和执行方式，但程序员依旧要写一个程序来表现任务。尽管他们提供了一个有趣的平台来研究这些问题，但大多数的任务已经建模进成人的行为里了，因此体系结构就不用直接去处理先天性 KSA 问题了。

理解先天性（或者至少说其是主要的）知识的第四种方法论是概率编程。近年来我们已经见证了编程语言发展上的巨大进步，这使得我们容易去定义灵活且复杂的概率模型并且让它们切合数据的要求(http://dippl.org/ )。这种近似的优点在于，贝叶斯统计为我们提供了一个学习的优美理论。而模型分析和可识别性这两个工具能够用于证实已经学习到的结构的语义学内含。因此，不像神经网络，这种方法使得已经学习到的系数的值能被标注上有用的意义。但是，就像深度神经网络和认知体系结构一样，每一样新的应用都要求我们编写一个新的程序。

目前研究进展到这个状态，我认为这似乎是因为我们缺少一个研究先天性 KSA 的强大的方法论。其中至少有三个困难点。第一，先天性 KSA 能够有各种形式。它能被编码进算法中的程序结构，系统中的数据结构，或者是明确的陈述性知识（逻辑型或者概率型）。对于两个不同系统是否表示相同的 KSA 这个问题，我们存在一定的困难。比如，通过利用随机梯度下降，近期的几项研究(https://arxiv.org/abs/1709.01953；https://arxiv.org/abs/1710.10345 )显示我们无疑偏向于查找较为平坦的极小值（这被认为是非常一般的性质）。第二，我们在机器学习上关于「经验」的概念趋于狭隘和同质化。在监督学习中，我们通常假设定长特征向量（或者定维图像）。在强化学习中，我们同样假设一个固定结构的状态（作为一个定维目标）和奖励机制，并且还会假设马尔科夫性质。第三，我们的决策模型使得中间过程非常粗糙。我们即能研究单智能体马尔科夫决策过程（MDPs），又能研究单智能体部分可观察 MDPs，还能研究多智能体随机博弈。但单智能体模型对于社交建模显然是不合适的，同时，多智能体博弈虽然适用范围广，但却很难找到有效算法去学习和解决问题。

研究问题中，一个额外的并发症是 AI 领域的研究人员并不是都在试图建立人类级别的认知系统。几乎每一个子领域，AI 研究人员都在试图建立拥有某几项超越人类能力的系统。比如，网站搜索引擎也是 AI 系统，它的的存储能力和计算速度都大大超过人类，但是他们对我们的写出的和说出的咨询信息的理解却常常出错。为了在数学上证明理论或者证明关于计算机编程的修正项的理论，一些研究人员试图建立一个理论证明系统。为了使这些系统能达到和学习过程互助的程度，和先天性 KSA 一样的问题也出现了，但由于这些任务和生物系统有很大的不同，「从生物学上迁移」策略也不能应用。

为了进步，我们需要克服这些方法论挑战。我赞赏 DeepMind 为建立一个能在多样的任务挑战环境下表现的系统所做的努力。我也深受那些目标定在「终身学习」的系统的鼓励，这些系统必须学着如何在一系列的任务挑战中表现（不能忘记如何在先前的任务中的表现）。也许通过提升这些任务的多样性和复杂性，我们能学到更多关于先天性 KSA 的知识。

但是，我也担心关于「任务」的整个概念被误导。AI 研究通常认为智能行为是在定义好的的任务上的一个个行为组成的（我近似地将其称为「任务主义」）。但实际上却与此相反，人类的经历不是能够一段段映射到一个可区分的任务集合中的。并且，人类行为的中间过程能够看作为是在同时进行着许多不同的任务的。任何一个做过生理学实验的人都能切实感受到其中所带来阴影，实验过程中，他们要努力将实验目标的任务从盘根错节的任务群中分离出来。而我们在 AI 上的挑战正相反，要如何才能从一个个分立的人工任务过渡到诸多任务完全混杂的日常生活行为上来呢？

via medium.com/@tdietterich，雷锋网 AI 科技评论编译

别忽视深度学习的种种问题，Gary Marcus 泼冷水义不容辞