首页 » 机器学习实战 » 机器学习实战全文在线阅读

《机器学习实战》C.3 概率的基本准则

关灯直达底部

概率的基本准则使我们可以在概率上做数学演算,这些准则与代数里的公理一样,需要牢记。本书将对它们依次做出介绍,并用表C-1的数据做辅助分析。

可以看到,前面计算出的概率都是分数。如果数据集里的所有天气都是雪天,那么P(下雪)将会是7/7,即等于1。如果数据集里没有雪天,那么P(下雪)将会是0/7,即等于0。所以对任何事件X来说,0≤P(X)≤1

雪天的求补事件记为~下雪或者¬下雪。求补意味着除了给定事件(下雪)以外的任何其他事件。在表C-1的天气中,其他事件包括下雨和晴。在仅有这三种可能的天气事件下, P(¬下雪) = P(下雨) + P(晴天) = 5/7,而同时P(下雪) = 2/7,所以P(下雪) + P(¬下雪)=1。另一种说法是下雪 + ¬下雪事件总为真。用图表将其可视化能帮助我们理解这些事件间的关系,其中一种很有用的图就是文氏图,它在表示集合的时候非常有效。图C-1展示了所有可能的天气状况的事件集合。雪天占据了图中的圆圈内的区域,而非雪天则占据了其他区域。

图C-1 上图的圆圈内表示 “下雪天”事件(将其他事件排除在圆圈之外),下图的圆圈外则表示除“雪天”外的其他所有事件。这样,雪天和非雪天就包括了所有事件。

概率论的最后一个基本准则是关于多变量的。图C-2的文氏图描述了表C-1中的两个事件的关系,事件一是“天气 = 下雪”,而事件二是“星期几=2”。这两个事件不是互斥的,也就是说它们可能同时发生。有些下雪天恰好是星期二,也有些下雪天不是星期二。因此这两个事件在图中的区域有一部分重叠但并不完全重叠。

图C-2 表示两个相交事件的文氏图

图C-2中的重叠区域被认为是两个事件的交集,可以直观地记做(天气=雪天) AND (星期几=2)。如何计算P((天气=雪天) OR (星期几=2))呢?可以用减去重叠部分的方法来避免重复计数:P(雪天 AND 星期二)=P(雪天)+P(星期二)-P(雪天 AND 星期二)。如果将上式一般化就得到式子:P(X OR Y)=P(X)+P(Y)-P(X AND Y)。该公式很有意义,它在AND和OR的概率之间搭起了桥梁。

通过这些基本的概率运算准则就可以计算出各种事件的概率。通过假设和先验知识可以推算出未观测到的事件的概率。