大数据学习手册：定量评估模型

2023/9/28 9:07:03　阅读：104　发布者：

以下文章来源于大数据专家傅一航，作者傅一航

欠拟合评估

很容易理解，欠拟合其实就是模型在训练集和测试集上的表现都很差（误差都大）。当你发现在训练集上，模型的质量达不到要求时，都可以认为是欠拟合。

欠拟合解决方法，详细参考后续的回归模型优化章节。

过拟合评估

前面介绍过，当模型在测试集上的误差比较小，而在测试集上的误差比较大时，就说明模型出现了过拟合，也说明模型将训练集中的噪声都学习进去了，造成了模型的泛化能力较差。

过拟合与模型复杂度

数学家们发现，模型之所有过拟合，往往与模型的复杂程度有关。模型越复杂，过拟合的可能性就越高；但模型过于简单，就会导致模型欠拟合，同样也是不可用的。所以，需要在模型的质量和模型复杂度之间找到一个平衡点。

图表20‑9过拟合与模型复杂度

如下所示，在回归模型中，如果模型过于简单（一元线性回归），则出现欠拟合；如果模型过于复杂（4次多项式），则会出现过拟合，所以需要找到一个复杂度合适的回归模型。

图表20‑10欠拟合与过拟合

那么，怎样才能评估模型是否过拟合呢？

学习曲线

学习曲线（Learning Curve），是常用来检验模型过拟合的方法。

学习曲线，其横坐标为数据量的大小，纵坐标为模型在训练集和测试集上的准确率，如下图所示。

图表20‑11学习曲线

一个好的模型，在训练集和测试集上的准确率都应该比较高，而且是慢慢接近的。下图中，第一个图中，虽然两条曲线是在慢慢接近，但他们的汇合处的准确率太低，说明是欠拟合；第二个图中，两条曲线虽然在靠近，但并没有汇合，说明出现了过拟合；第三个图，两条曲线在慢慢接近，而且汇合处的准确率比较高，说明模型刚刚好。

图表20‑12常见的学习曲线

验证曲线

验证曲线（Validation Curve），绘制的是模型准确率与模型超参取值之间的关系。

图表20‑13验证曲线

从验证曲线，可以看到随着超级参数的改变，模型可能从欠拟合到合适，再从合适到过拟合的过程，因此可以帮助我们选择一个合适的超参，来提高模型的性能。

过拟合解决方法，详细参考后续的回归模型优化章节。

两模型差异比较

模型评估效果

关于模型的评估，我们还经常用偏差和方差两个概念来表示。

偏差

偏差（Bias），指的是模型是否准确，即误差的集中程度。在交叉验证中，相当于K个模型质量的平均值。

方差

方差（Variance），指的是模型是否稳定，即误差的离散程度。在交叉验证中，相当于K个模型质量的方差。

如下图所示，一个好的可用的模型，肯定是低偏差和低方差的，但很多场景下两者往往不可兼得。

一般情况下，参数学习模型（比如线性回归模型），通常是高偏差的，因为对数据有极强的假设（比如要求数据呈正态分布），而非参数学习模型（比如KNN，决策树），通常是高方差的，因为不对数据进行任何的假设，而高度依赖于样本数据。

转自：“量化研究方法”微信公众号

如有侵权，请联系本站删除！

上一篇： 大数据决策的四大底层逻辑
下一篇： AI在心理健康领域的应用

投稿问答最小化 关闭

大数据学习手册：定量评估模型

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

大数据学习手册：定量评估模型

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭