ICLR 2019 | 如何理解深度神经网络的泛化性能？谷歌认为可以从「泛化鸿沟」入手

2019/07/15 11:33

雷锋网 AI 科技评论按：深度神经网络（DNN）作为机器学习的基础，为图像识别、图像分割、机器翻译等诸多领域取得突破性进展做出了重大贡献，然而研究人员始终都无法完全理解支配 DDN 的基本原理。其中，泛化是预测和理解 DNN 在未见过样本上的性能的重要指标，而理解泛化的一个重要概念便是泛化鸿沟（generalization gap）。基于此，谷歌的这篇 ICLR 2019 论文提出使用跨网络层的标准化边际分布作为泛化鸿沟的预测因子，对边际分布与泛化之间的关系进行了实证研究，结果表明边际分布的一些基本统计量可以准确地预测泛化鸿沟。谷歌发表文章对该论文进行了介绍，雷锋网 AI 科技评论编译如下。

DNN 是近年来机器学习研究进展的奠基石，是图像识别、图像分割、机器翻译等诸多领域取得突破性进展的重要原因。然而，尽管它们无处不在，研究人员仍然在努力尝试去完全理解支配深度神经网络的基本原理。特别是，经典理论（例如 VC 维和 Rademacher 复杂度）认为，过度参数化函数对未见过数据的泛化效果很差，但是最近的研究发现，大量过度参数化函数（参数比数据点的数量多一个数量级）的泛化效果很好。为了改进模型，需要更好地理解泛化，这将需要更多的理论基础和规则方法来进行 DNN 设计。

理解泛化的一个重要概念是泛化鸿沟（generalization gap），即模型在训练数据上的性能与其在从同一分布中提取的未见过的数据上的性能之间的差异。该领域在推导出更好的 DNN 泛化边界（泛化鸿沟的上限）方面已经取得了很大的进展，但它们仍然倾向于高估实际泛化鸿沟，这使得它们无法解释为什么一些模型泛化得如此之好。另一方面，边际的概念，即数据点与决策边界之间的距离，在支持向量机等浅层模型的场景中得到了广泛的研究，并被发现与这些模型对未见过的数据的泛化表现密切相关。鉴于此，利用边际概念来研究泛化性能已经被扩展到 DNN 上了，导致泛化鸿沟上的理论上界高度细化，但并没有显著提高对模型泛化表现的预测能力。

ICLR 2019 | 如何理解深度神经网络的泛化性能？谷歌认为可以从「泛化鸿沟」入手

一个支持向量机决策边界的例子。由 w·x-b=0 定义的超平面为该线性分类器的「决策边界」，即超平面上的每个点 x 在这个分类器下都是等可能的。

我们在 ICLR 2019 会议上的论文《使用边际分布来预测深度网络的泛化鸿沟》（「Predicting the Generalization Gap in Deep Networks with Margin Distributions」，https://arxiv.org/abs/1810.00113）中，提出使用跨网络层的标准化边际分布作为泛化鸿沟的预测因子。我们实证研究了边际分布与泛化之间的关系，结果表明，在对距离进行适当的归一化后，边际分布的一些基本统计量可以准确地预测泛化鸿沟。我们将所有模型作为数据集存储至 Github，用于泛化研究。

ICLR 2019 | 如何理解深度神经网络的泛化性能？谷歌认为可以从「泛化鸿沟」入手

每个图对应一个训练在 CIFAR-10 上的卷积神经网络，分别具有不同的分类精度。对于三种不同的模型，给出了网络 4 层归一化边际分布（x 轴）的概率密度（y 轴），并且具有越来越好的泛化表现（从左到右）。归一化边际分布与测试精度有很强的相关性，可以作为预测网络泛化差距的一个指标。有关这些网络的详细信息，请参阅我们的论文。

将边际分布作为泛化预测因子

直观地说，如果边际分布的统计量能够真实地预测泛化性能，那么一个简单的预测方案应该能够建立两者的关系。因此，我们选择线性回归作为预测因子。我们发现泛化鸿沟鸿沟与边际分布的对数变换统计量之间的关系几乎是完全线性的（见下图）。事实上，与现有的其他泛化方法相比，该方法的预测效果更好。这表明边际分布可能包含关于模型泛化深度的重要信息。

ICLR 2019 | 如何理解深度神经网络的泛化性能？谷歌认为可以从「泛化鸿沟」入手

CIFAR-100 + ResNet-32 上预测的泛化差距（x 轴）与真实的泛化差距（y 轴）。这说明对数线性模型的预测值与真实的泛化鸿沟十分吻合。

深度模型泛化数据集

除了论文，我们还介绍了深度模型泛化（DEMOGEN）数据集，它包含 756 个经过训练的深度模型，以及这些模型在 CIFAR-10 和 CIFAR-100 数据集上的训练和测试表现。这些模型是 CNNs（其架构类似于 Network-in-Network）和 ResNet-32 的变体，具有不同的常用正则化技术和超参数设置，从而产生广泛的泛化行为。例如，在 CIFAR-10 上训练的 CNNs 模型的测试精度在 60% 到 90.5% 之间，泛化鸿沟则在 1% 到 35% 之间。有关数据集的详细信息，请参阅我们的论文或 Github 开发库（地址：https://github.com/google-research/google-research/tree/master/demogen）。作为数据集发布的一部分，我们还提供了一些实用程序，可以方便地加载模型并重现本文中的结果。

我们希望这项研究和 DEMOGEN 数据集能为研究深度学习中的泛化问题提供一个有用的工具，而不需要重新训练大量的模型。我们也希望我们的研究结果能够促进对泛化鸿沟预测因子和隐藏层中边际分布的进一步研究。

Via：http://ai.googleblog.com/2019/07/predicting-generalization-gap-in-deep.html 雷锋网

专题

ICLR 2019 查看更多文章