雷锋网按:作者Carlos Perez是一名软件开发者,著有《深度学习的设计模型》一书。他在这篇文章中提及了我们熟悉的概念——博弈论,并认为这一概念将会更广泛地应用于机器学习中。
在电影《美丽心灵》中,“如何科学把妹”让我们得以直观地理解约翰·纳什的博弈论,但实际上不完全信息博弈论中的近似纳什均衡也已经出现在一些机器学习的论文中。其中原因何在?雷锋网为读者们编译了他在KDnuggets上的文章,一起来看看吧。
如果你一直是我文章的读者,那么你应该知道,对于许多深度学习的资深从业者来说,新的架构设计将包含越来越多的博弈论的要素。
这种做法将具有直观的意义。原因有二。其一,深度学习系统最终需要解决知识不完备的情况。实际上我们已经在AlphaGo中领教到了。AlphaGo使用部分的知识就可以在战术以及战略上打败人类当中最优秀的围棋选手。
第二个直观的意义是深度学习系统不会像在现在一样保留单一的完整性,而是将包含多种协调(或者说竞争)机制。这种情形已经应用于对抗网络中了。对抗网络包含竞争神经网络,既是攻方,也是防守方。前者会生成假图像,后者将会鉴别图像的真伪。该系统十分有意思,它并不需要一个具有封闭形式的损失函数。实际上,一些系统拥有发现自身损失函数的惊奇能力。对抗神经网络的劣势之一是很难训练。对抗学习需要在非合作博弈中包含纳什均衡。在最近的无监督学习论文中,Yann Lecun将对抗网络称为“最近二十年以来,机器学习领域中最有意思的想法”,这一点雷锋网此前也有提及。
我们仍然处于在深度学习领域中应用博弈论的早期阶段,但是我要指出的是一些有关机器学习的论文,已经有了博弈论的影子。David Balduzzi设计了一个深度学习的框架,该框架使用了博弈论的方法。他在论文《深度学习的语义、表达以及语法》中写道:
太过宽泛,是这种方法的薄弱之处。......不过,通过将简单函数的组合看作是深度学习架构的基本特征,倒有可能创造出一种非凸游戏。通过分布式通信协议与语法将这种组合进行形式化。
这种方法非常好,适用于解决我们的疑惑。他使用了几张图(是关于对抗神经网络的图)来表明他的方法的优点:
要是所有的教科书都使用这种方法,那该多好!
David Silver与Johannes Heinrich曾共同发表过一篇名为《在非完备信息博弈论当中深度增强学习的表现》的论文,在该论文中,他们写到:
NFSP是第一种端到端的深度增强学习方法,我们可以将这种方法应用于不完全信息博弈论中的近似纳什均衡。NFSP与以前的博弈论理论方法不同,在没有先验知识的情况下,NSPF是动态可伸缩的。此外,NSPF也是第一个可以在自我训练中有效收敛到近似纳什均衡的深度增强学习方法。
Jason Hartford等人使用深度学习来预测人的行为。他们在《深度学习在预测人的策略行为当中的应用》中写到:
通过结合认知偏差以及认知心理学中自我审视的局限性,行为博弈论理论已经发展到拥有大量的模型来在战略环境中预测人的行为。
有三个玩家,他们将三种不同的博弈论方法应用于深度学习当中:
(1)作为描述与分析新的深度学习架构的手段;
(2)作为构建学习策略的方式;
(3)用来预测人类玩家行为的方法。
最后一种方法令人毛骨悚然。
数学给予了我们抽象,并帮助我们来理解复杂的系统。然而,任何一种形式的抽象都有它的局限性。因为一些细节被忽略掉了。我们通过使用几何、力学以及逻辑来勾勒出这些复杂的系统的工作原理。这些系统的分类器来源于其他的分类器。我们从中获益匪浅。他们都是自相似的系统,他们都属于同一个集体。在该集体中,这些系统相互作用,相互影响。更进一步来讲,我们使用这些系统来预测我们的未来。这些预测需要使用不完备与不完善的数据。因此我们需要一个数学框架来研究众多交互部分的行为,而这些交互的部分拥有不同的信息集。
经典的机器学习理论认为问题可以转变成优化问题。这就需要算法来寻找最佳的解决方案。然而我们希望我们使用机器学习方法训练出的模型,没有过度拟合数据,并且能够很好地处理从未遇到过的数据。我们希望我们的模型能够对未知作出预测。这种要求(也被称作泛化)和传统的优化问题有很大的不同。这种要求也不同于经典动力学。经典动力学要求获得尽可能多的数据。这就是为什么在将深度学习应用到工程的时候,需要对优化问题附加约束。在一些文章中,这些限制被称为“先验”(我并不喜欢这种称谓),或者说优化问题中的正则化。
正则化的来源是什么?我们该如何选择一个好的正则化?我们该如何合理地处理信息?通过使用博弈论的方式,我们将获得答案。这也就是博弈论会在机器学习领域中变得重要的原因。
正则化有时会涉及到结构风险最小化。换句话说,我们使用类似于降低各方风险的策略来构建处理正则化的机制。最终我们得到了完整的结论。博弈论是用来研究理性决策者之间关系的数学模型。决策者之间的关系包括竞争与合作。为了理解学习机,我们最终使用数学来研究智慧生物之间的交互。
via KDnuggets,雷锋网编译。