首页 » 机器学习实战 » 机器学习实战全文在线阅读

《机器学习实战》4.3 使用条件概率来分类

关灯直达底部

4.1节提到贝叶斯决策理论要求计算两个概率p1(x, y)p2(x, y)

  • 如果p1(x, y) > p2(x, y),那么属于类别1;
  • 如果p2(x, y) > p1(x, y),那么属于类别2。

但这两个准则并不是贝叶斯决策理论的所有内容。使用p1( )p2( )只是为了尽可能简化描述,而真正需要计算和比较的是p(c₁|x, y)p(c₂|x, y)。这些符号所代表的具体意义是:给定某个由x、y表示的数据点,那么该数据点来自类别c₁的概率是多少?数据点来自类别c₂的概率又是多少?注意这些概率与刚才给出的概率p(x, y|c₁)并不一样,不过可以使用贝叶斯准则来交换概率中条件与结果。具体地,应用贝叶斯准则得到:

使用这些定义,可以定义贝叶斯分类准则为:

  • 如果P(c₁|x, y) > P(c₂|x, y),那么属于类别c₁
  • 如果P(c₁|x, y) < P(c₂|x, y),那么属于类别c₂

使用贝叶斯准则,可以通过已知的三个概率值来计算未知的概率值。后面就会给出利用贝叶斯准则来计算概率并对数据进行分类的代码。现在介绍了一些概率理论,你也了解了基于这些理论构建分类器的方法,接下来就要将它们付诸实践。下一节会介绍一个简单但功能强大的贝叶斯分类器的应用案例。