首页 » python机器学习 » python机器学习全文在线阅读

《python机器学习》6.1.1 加载威斯康星乳腺癌数据集

关灯直达底部

本章我们将使用威斯康星乳腺癌(Breast Cancer Wisconsin)数据集进行讲解,此数据集共包含569个恶性或者良性肿瘤细胞样本。数据集的前两列分别存储了样本唯一的ID以及对样本的诊断结果(M代表恶性,B代表良性)。数据集的3~32列包含了30个从细胞核照片中提取、用实数值标识的特征,它们可以用于构建判定模型,对肿瘤是良性还是恶性做出预测。威斯康星乳腺癌数据集已经存储在UCI机器学习数据集库中,关于此数据集更多的信息请访问链接:https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)。

在本节,我们通过三个步骤来读取数据集,并将其划分为训练数据集和测试数据集。

1)使用pandas从UCI网站直接读取数据集:

2)接下来,将数据集的30个特征的赋值给一个NumPy的数组对象X。使用scikit-learn中的LabelEncoder类,我们可以将类标从原始的字符串表示(M或者B)转换为整数:

转换后的类标(诊断结果)存储在一个数组y中,此时恶性肿瘤和良性肿瘤分别被标识为类1和类0,我们可以通过调用LabelEncoder的transform方法来显示虚拟类标(0和1):

3)在构建第一个流水线模型前,先将数据集划分为训练数据集(原始数据集80%的数据)和一个单独的测试数据集(原始数据集20%的数据):