首页 » python机器学习 » python机器学习全文在线阅读

《python机器学习》4.1.1 将存在缺失值的特征或样本删除

关灯直达底部

处理缺失数据最简单的方法就是:将包含确实数据的特征(列)或者样本(行)从数据集中删除。可通过dropna方法来删除数据集中包含缺失值的行:

类似地,我们可以将axis参数设为1,以删除数据集中至少包含一个NaN值的列:

dropna方法还支持其他参数,以应对各种缺失值的情况:

删除缺失数据看起来像是一种非常方便的方法,但也有一定的缺点,如:我们可能会删除过多的样本,导致分析结果可靠性不高。从另一方面讲,如果删除了过多的特征列,有可能会面临丢失有价值信息的风险,而这些信息是分类器用来区分类别所必需的。在下一节,我们将学习另外一种最常用的处理缺失数据的方法:插值技术。