3 这告诉了我们深度学习的什么?当我们将model.parameters()(这里我用的是PyTorch)传递给优化器时,深度学习看起来好像是参数化的。但其实它不是!看起来这种正则化方法正是深度学习运作的理论框架——有时人们对此知之甚少。我们的模型足够大,从“道德上看来”足以成为非参数,尽管我们还没有完全理解,但我们所做的大多数事情(比如augmentation, norm layers和 dropout)其实都是正则化。这也是M. Belkin等人所写的《协调现代机器学习实践和偏差-方差权衡》(Reconciling modern machine learning practice and the bias-variance trade-off)的主题和他们早期研究的主题,即泛化性能的关键是由某个特定函数空间范数衡量的函数的规律性或平滑性。 我们有必要仔细看看M. Belkin等人(我认为这是首次)对双下降现象的描述:这里有几点需要注意:
M. Belkin等人把条件中的“传统(classical)”和“现代(modern)”等限定词用引号括了起来。“现代”条件是一种十分之非参数的学习,具有一种我们还需要更加深入理解的正则化。
这对偏差-方差分解意味着什么? 回想一下,分解在空间上是逐点的,并像之前一样要对各种训练数据集进行方差和偏差处理。假设你只有两个类,那么预测和标签要么是0要么是1。接下来原型收集已损坏的标签,就会产生偏差(因为你将以某种概率预测错误的事情)和方差(因为糟糕预测的区域取决于哪些标签已损坏,也就是取决于我们在哪个数据集D上绘制),并使错误预测的区域更小,从而减少方差和偏差。在这种直觉中,早期停止的作用是检测模型何时开始收集已损坏的标签。所以看起来现代神经网络本质上是非参数的,其工作方式依赖于各种正则化。为了使用M. Belkin等人的公式,我们希望更加了解,我们对于各种技术如何对某些函数空间范数作用的理解到了什么程度。似乎很难得出“传统”统计数据表明现代学习不起作用的结论。Hastie等人的《高维无脊最小二乘插值中的惊喜》(Surprises in High-Dimensional Ridgeless Least Squares Interpolation)一文将最小二乘作为模型问题,提供了非常全面的分析,这也可能为深度学习现象提供直觉。