在上一节中,我们使用了scikit-learn中的Imputer类来填充我们数据集中的缺失值。Imputer类属于sciait-learn中的转换器类,主要用于数据的转换。这些类中常用的两个方法是fit和transform。其中,fit方法用于对数据集中的参数进行识别并构建相应的数据补齐模型,而transform方法则使用刚构建的数据补齐模型对数据集中相应参数的缺失值进行补齐。所有待补齐数据的维度应该与数据补齐模型中其他数据的维度相同。下图解释了转换器类如何对训练和测试数据进行数据处理(在此是数据补齐):
我们在第3章中用到了分类器,它们在scikit-learn中属于预估器类别,其API的设计与转换器类非常相似。在后续内容中我们将看到,预估器类包含一个predict方法,同时也包含一个transform方法。读者应该记得,我们在训练预估器用于分类任务时,同样使用了一个fit方法来对参数进行设定。在监督学习中,我们额外提供了类标用于构建模型,而模型可通过predict方法对新的样本数据展开预测,如下图所示: