首页 » 机器学习实战 » 机器学习实战全文在线阅读

《机器学习实战》第7章 利用AdaBoost元算法提高分类性能

关灯直达底部

本章内容

  • 组合相似的分类器来提高分类性能
  • 应用AdaBoost算法
  • 处理非均衡分类问题

当做重要决定时,大家可能都会考虑吸取多个专家而不只是一个人的意见。机器学习处理问题时又何尝不是如此?这就是元算法(meta-algorithm)背后的思路。元算法是对其他算法进行组合的一种方式。接下来我们将集中关注一个称作AdaBoost的最流行的元算法。由于某些人认为AdaBoost是最好的监督学习的方法,所以该方法是机器学习工具箱中最强有力的工具之一。

本章首先讨论不同分类器的集成方法,然后主要关注boosting方法及其代表分类器Adaboost。再接下来,我们就会建立一个单层决策树(decision stump)分类器。实际上,它是一个单节点的决策树。AdaBoost算法将应用在上述单层决策树分类器之上。我们将在一个难数据集上应用AdaBoost分类器,以了解该算法是如何迅速超越其他分类器的。

最后,在结束分类话题之前,我们将讨论所有分类器都会遇到的一个通用问题:非均衡分类问题。当我们试图对样例数目不均衡的数据进行分类时,就会遇到这个问题。信用卡使用中的欺诈检测就是非均衡问题中的一个极好的例子,此时我们可能会对每一个正例样本都有1000个反例样本。在这种情况下,分类器将如何工作?读者将会了解到,可能需要利用修改后的指标来评价分类器的性能。而就这个问题而言,并非AdaBoost所独用,只是因为这是分类的最后一章,因此到了讨论这个问题的最佳时机。