到目前为止,我们仅学习了处理数值型数据的方法。然而,在真实数据集中,经常会出现一个或多个类别数据的特征列。我们在讨论类别数据时,又可以进一步将他们划分为标称特征(nominal feature)和有序特征(ordinal feature)。可以将有序特征理解为类别的值是有序的或者是可以排序的。如T恤衫的尺寸就是一个有序特征,因为我们可以为其值排序XL>L>M。相反,标称数据则不具备排序的特性。继续刚才。例子,我们可以将T恤衫的颜色看作一个标称特征,因为一般说来,对颜色进行比较,如红色大于蓝色这种说法是不符合常理的。
在探索类别数据的处理技巧之前,我们先构造一个数据集来用来描述问题:
从代码的输出结果中可以看到,我们新构造的DataFrame分别包含一个标称特征(颜色)、一个有序特征(尺寸)以及一个数值特征(价格)。类标(此处假定我们构造的数据集用于监督学习)存储在最后一列。在本书中,我们讨论的分类学习算法中均不使用有序信息作为类标。