如果一个模型在训练数据集上的表现比在测试数据集上好很多,这意味着模型过拟合(overfitting)于训练数据。过拟合是指模型参数对于训练数据集的特定观测值拟合得非常接近,但训练数据集的分布与真实数据并不一致——我们称之为模型具有较高的方差。产生过拟合的原因是建立在给定训练数据集上的模型过于复杂,而常用的降低泛化误差的方案有:
1)收集更多的训练数据
2)通过正则化引入罚项
3)选择一个参数相对较少的简单模型
4)降低数据的维度
一般来说,收集更多的训练数据不太适用。在下一章中,我们将探讨一种更为有用的技术,以验证收集更多训练数据是否能够对解决过拟合问题有所帮助。而在本章的后续内容中,我们将讨论正则化和特征选择降维这两种常用的减少过拟合问题的方法。