无监督学习中存在一个问题,就是我们并不知道问题的确切答案。由于没有数据集样本类标的确切数据,所以我们无法在无监督学习中使用第6章中用来评估监督学习模型性能的相关技术。因此,为了对聚类效果进行定量分析,我们需要使用模型内部的固有度量来比较不同k-means聚类结果的性能,例如本章先前讨论过的簇内误差平方和(即聚类偏差)。在完成KMeans模型的拟合后,簇内误差平方和可以通过inertia属性来访问,因此,我们无需再次计算就可直接拿来使用。
基于簇内误差平方和,我们可使用图形工具,即所谓的肘方法,针对给定任务估计出最优的簇数量k。直观地看,增加k的值可以降低聚类偏差。这是因为样本会更加接近其所在簇的中心点。肘方法的基本理念就是找出聚类偏差骤增时的k值,我们可以绘制出不同k值对应的聚类偏差图,以做更清晰的观察:
如下图所示,当k=3时图案呈现了肘型,这表明对于此数据集来说,k=3的确是一个好的选择: