过拟合是什么?关于过拟合的详细介绍

创闻科学2020-11-16 15:57:51

在统计学中,过度拟合是指“产生的分析过于接近或精确地对应于一组特定的数据,因此可能无法可靠地拟合额外的数据或预测未来的观测结果”。 过度拟合模型是一种统计模型,它包含的参数比数据所能证明的要多。 过度拟合的本质是无意中提取了一些剩余变化(即噪声),好像这些变化代表了底层模型结构。

当统计模型不能充分捕捉数据的底层结构时,就会出现拟合不足。缺配模型是指在正确指定的模型中缺少某些参数或术语的模型。 例如,当将线性模型拟合到非线性数据时,会出现拟合不足。这种模型的预测性能往往较差。

尤其是在机器学习中,过度拟合和欠拟合会发生。在机器学习中,这种现象有时被称为“过度训练”和“训练不足”。

过度拟合的可能性是存在的,因为用于选择模型的标准与用于判断模型适用性的标准不同。例如,一个模型可以通过最大化它在某组训练数据上的性能来选择,然而它的适合性可以通过它在看不见的数据上表现良好的能力来确定;然后,当模型开始“记忆”训练数据,而不是“学习”从趋势中进行归纳时,就会出现过度拟合。

作为一个极端的例子,如果参数的数量等于或大于观察值的数量,那么模型可以简单地通过完整地存储数据来完美地预测训练数据。(有关说明,请参见图2.然而,这种模型在进行预测时通常会严重失败。

过度拟合的可能性不仅取决于参数和数据的数量,还取决于模型结构与数据形状的一致性,以及模型误差相对于数据中预期噪声或误差水平的大小。 即使当拟合模型没有过多的参数时,也可以预期拟合关系在新数据集上的表现不如用于拟合的数据集好(这种现象有时被称为 收缩)。 特别是,确定系数的值将相对于原始数据缩小。

为了减少过度拟合的机会或数量,可以使用几种技术(例如模型比较、交叉验证、正则化、提前停止、修剪、贝叶斯先验或丢弃)。一些技术的基础要么是(1)明确惩罚过于复杂的模型,要么是(2)通过在一组不用于训练的数据上评估模型的性能来测试模型的泛化能力,这些数据被假定为模型将遇到的典型的看不见的数据。

统计推断

在统计学中,一个推论是从一个统计模型中得出的,这个模型是通过某种程序选择的。伯纳姆&安德森在他们被大量引用的关于模型选择的文章中认为,为了避免过度拟合,我们应该坚持“简约原则”。 提交人还声明如下。

过度拟合的模型,通常在参数估计中没有偏差,但是估计的(和实际的)抽样方差不必要地大(相对于更简约的模型,估计的精度很差)。虚假的治疗效果往往被识别,虚假的变量被包括在过度使用的模型中。通过适当平衡欠拟合和过拟合的误差,可以获得最佳的近似模型。

当没有什么理论可以用来指导分析时,过度拟合更有可能成为一个严重的问题,部分原因是这样会有大量的模型可供选择。这本书 模型选择和模型平均 (2008)这样说。

给定一个数据集,一个按钮就能适应成千上万个模型,但是如何选择最好的呢?有这么多候选模型,过度拟合是一个真正的危险。

回归

在回归分析中,过度拟合经常发生。 举个极端的例子,如果有 p 线性回归中的变量 p 数据点,拟合线可以精确地穿过每个点。 对于逻辑回归或考克斯比例风险模型,有多种经验法则(例如5–9,10 和10–15 —每个独立变量10次观察的准则被称为“十分之一规则”)。在回归模型选择过程中,随机回归函数的均方误差可分为随机噪声、近似偏差和回归函数估计中的方差。偏差-方差权衡通常用于克服过度投资模型。

由于大量的解释变量实际上与被预测的因变量没有关系,一些变量通常会被错误地发现具有统计学意义,因此研究者可能会将它们保留在模型中,从而过度拟合模型。这被称为弗里德曼悖论。

机器学习

监督学习中的过度适应/过度训练(例如,神经网络)。训练误差以蓝色显示,验证误差以红色显示,两者都是训练周期数的函数。如果验证误差增加(正斜率),而训练误差稳定下降(负斜率),则可能出现过拟合的情况。最佳的预测和拟合模型是验证误差具有全局最小值的模型。

通常使用一些“训练数据”集合来训练学习算法:已知期望输出的示例性情况。我们的目标是,当输入训练中没有遇到的“验证数据”时,该算法也能很好地预测输出。

过度拟合是指使用违反奥卡姆剃刀的模型或程序,例如通过包含比最终最优值更多的可调参数,或者通过使用比最终最优值更复杂的方法。对于可调参数太多的示例,请考虑一个数据集,其中的训练数据 y 可以通过两个因变量的线性函数来充分预测。这种函数只需要三个参数(截距和两个斜率)。用一个新的、更复杂的二次函数,或者用一个关于两个以上因变量的新的、更复杂的线性函数来代替这个简单的函数是有风险的:奥卡姆剃刀暗示任何给定的复杂函数都是 推理的 比任何给定的简单函数都不太可能。如果选择新的、更复杂的函数而不是简单的函数,并且如果训练数据没有足够大的增益来抵消复杂性的增加,那么新的复杂函数“溢出”数据,并且复杂的溢出函数在训练数据集之外的验证数据上的表现可能比更简单的函数差,即使复杂函数在训练数据集上也表现得更好,或者甚至更好。

当比较不同类型的模型时,复杂性不能仅仅通过计算每个模型中存在多少参数来衡量;还必须考虑每个参数的表达能力。例如,直接比较神经网络的复杂性(可以跟踪曲线关系)和 m 回归模型的参数 n 参数。

过度拟合在学习时间过长或训练实例很少的情况下尤其可能发生,导致学习者适应与目标函数没有因果关系的训练数据的非常具体的随机特征。在过度拟合的过程中,训练示例的性能仍然会提高,而未发现数据的性能会变得更差。

举个简单的例子,考虑一个零售购买数据库,其中包括购买的商品、购买者以及购买的日期和时间。通过使用购买日期和时间来预测其他属性,很容易构建一个完全适合培训集的模型;但是这个模型根本不会推广到新的数据,因为那些过去的时代再也不会发生了。

一般来说,如果一个学习算法在拟合已知数据时更准确(事后诸葛亮),但在预测新数据时不那么准确(先见之明),那么相对于一个更简单的算法来说,这个学习算法被认为是过度的。人们可以从以下事实直观地理解过度拟合:来自所有过去经验的信息可以分为两组:与未来相关的信息和不相关的信息(“噪音”)。在其他条件相同的情况下,预测标准越困难(即不确定性越高),过去的信息中存在的需要忽略的噪声就越多。问题是决定忽略哪一部分。一种可以减少拟合噪声机会的学习算法被称为“稳健的”

结果

过度拟合的最明显后果是验证数据集的性能不佳。其他负面后果包括:

  • 过度拟合的函数可能比最佳函数请求更多关于验证数据集中每个项的信息;收集这些额外的不需要的数据可能很昂贵或者容易出错,特别是如果每一条信息都必须通过人工观察和手工输入来收集的话。
  • 一个更复杂、负担过重的函数可能比一个简单的函数更难移植。在一个极端,单变量线性回归是如此的便携,如果有必要,甚至可以手工完成。在另一个极端,模型只能通过精确复制原始建模者的整个设置来复制,这使得重用或科学复制变得困难。
治疗

最佳函数通常需要在更大或全新的数据集上验证。 然而,有一些方法,如最小生成树或相关的生命周期,应用相关系数和时间序列(窗口宽度)之间的相关性。只要窗口宽度足够大,相关系数就稳定,不再依赖于窗口宽度大小。因此,可以通过计算研究变量之间的相关系数来创建相关矩阵。这个矩阵在拓扑上可以表示为一个复杂的网络,其中变量之间的直接和间接影响是可视化的。

装配不足

当统计模型或机器学习算法不能充分捕捉数据的底层结构时,就会出现拟合不足。当模型或算法不完全适合数据时,就会发生这种情况。如果模型或算法显示出低方差但高偏差(相反,从高方差和低偏差过度拟合),就会发生欠拟合。这通常是一个过于简单的模型的结果。

伯纳姆&安德森陈述如下。

一个欠载模型会忽略数据中一些重要的可复制(即在大多数其他样本中概念上可复制)结构,因此无法识别数据实际支持的效应。在这种情况下,参数估计的偏差通常很大,抽样方差被低估,这两个因素都导致置信区间覆盖不佳。在实验环境中,不完善的模型往往会忽略重要的治疗效果。