DeepMind的智能体成精了，还学会“发脾气”了？

作者：吴彤

2021/08/10 16:01

DeepMind又造“小人”了！

这群小人就是英国人工智能实验室造出的“智能体”，不过只可以在游戏中看到。之前以4：1力挫世界围棋冠军李世石的阿尔法狗，就是这家实验室训练的智能体。

但你可能不知道的是，DeepMind”还训练过“象棋棋手”、“足球球员”、”电竞玩家“，甚至提出“人工生命"的言论。

DeepMind的智能体成精了，还学会“发脾气”了？

最近的这群智能体，竟然能直接跳过数据填食，在开放式的任务环境中自我进化。

此前的阿尔法狗和阿尔法star，能力再强，也只能在各自的游戏里释放大招，超出自己的游戏范围立马“歇菜”。而这批小人却能在不同的游戏里游刃有余地完成任务，展现出超强的泛化能力。难道人工智能要迈出泛化“顽疾”了吗？

在一个抢夺高地金字塔的任务里，两个不同颜色的小人能力值相当。都没有跳跃功能的它们，开始“发脾气"乱扔东西。混乱中，竟把其中一块板子”扔“成了楼梯，长驱直入，任务完成！

多次实验发现，这些小人可以复现这种方法，难道这群智能体有了记忆？

不仅如此，小人还学会了“相对运动”--我上不去，你下来--借助板子直接把目标扒拉下来了! 甚至为了赢得比赛，多个小人学会了打配合，团体成长力刷刷上涨。

这种在虚拟游戏中自我进化的智能体，仅仅需要人为搭建一个任务环境，设计大量的任务目标，利用加强深度学习的方法，一步一步打通关，最终成为一个“十八般武艺”的智能体。

DeepMind的智能体成精了，还学会“发脾气”了？

没有样本，没有经验，这些智能体究竟如何进化，零样本学习方式是否意味着这些智能体已经具备了基本的“自学意识”？

相比之前做出的Ai足球场，这批智能体的训练场更像一个游戏“社会”，里面有无数个游戏房间，每个房间的游戏按照竞争性、平衡性、可选性、探索难度四个纬度进行区分。

DeepMind的智能体成精了，还学会“发脾气”了？

不管是哪种任务，这批智能体都只能从最简单的开始，一步步解锁更复杂的游戏，这也导致整个游戏更像一个虚拟社会。

这些无需大数据集训练出来的智能体，每玩一次游戏就成长一次，在与各种环境的互动和“奖励”中，成长为一个更通用的智能体，也更类似于人工“生命”。

能让智能体自我进化的关键在于正确设计初始智能和进化规则。一开始是非常简单的，所有的复杂结构都是进化而来。就像婴儿做不了生孩子的事，布置任务的核心是不要超出智能体自身的改进能力。

根据 DeepMind的说法，每个AI智能体会在4000 个游戏房间中玩了大约 70万个独特的游戏，并在 340 万个任务中经历了 2000 亿个训练步骤。1 亿个步骤相当于大约 30 分钟的训练。按照这种训练方法，41天就能训练出一群“成年”智能体。

DeepMind表示，“单个AI智能体可以开发智能来实现多个目标，而不仅仅是一个目标。”

AI智能体新科技公司Pathmind 的CEO Chris Nicholson 也说到，“它学到的技能可以举一反三。例如，智能体学习抓取和操纵物体，就能完成敲锤子或者铺床的任务。而DeepMind 正在用编程为AI智能体在这个世界上设定目标，而这些AI智能体正在学习如何一一掌握它们。”

但是南加州大学计算机科学副教授 Sathyanaraya Raghavachary表示，这些智能体并不能定义为“生命”，尤其是关于智能体拥有身体感觉、时间意识以及理解目标的几个结论。

“即使是我们人类也没有完全意识到我们的身体，更不用说那些人工智能了。”

他讲到，一个活跃的身体对于大脑不可或缺，大脑要放在合适的身体意识和空间位置里进化。如果AI智能体能够理解它们的任务，何必需要 2000 亿步的模拟训练来达到最佳结果。总体而言，这个虚拟环境训练出来的AI智能体只是和以往的“大同小异”。

狭义的人工智能是“复制人类行为的元素”，在计算机中执行某种任务。例如实现对图像进行分类、定位照片中的对象、定义对象之间的边界等等。

这些系统旨在执行特定任务，而不具有解决问题的一般能力。

相比之下，Deepmind使用的“通用人工智能”有时也被称为人类级别的人工智能，因为它可以理解上下文、潜台词和社会线索，甚至被认为可能完全超过人类。

但是正如行为主义和认知主义之间的对抗，智能体是否具有解决问题的能力，并不能单纯地考虑统计的结果。善于“事后解释”任何观察到的行为，在实验室之外，都无法“预测”哪些行动即将发生。

编译来源：

https://bdtechtalks.com/2021/08/02/deepmind-xland-deep-reinforcement-learning/

雷锋网雷锋网雷锋网