朴素贝叶斯分类

朴素贝叶斯分类

准备知识

  • 先验概率:

    事件发生前的预判概率。可以是基于历史数据的统计,可以由背景常识得出,也可以是人的主观观点给出。一般都是单独事件概率,如P(x),P(y)。Eg: 明天堵车的概率为二分之一,是根据生活经验得出的。

  • 后验概率:

    事件发生后求的反向条件概率;或者说,基于先验概率求得的反向条件概率。概率形式与条件概率相同。Eg: 已知堵车,求车祸导致的堵车的概率。

  • 条件概率:

    一个事件发生后另一个事件发生的概率。一般的形式为P(x|y)表示y发生的条件下x发生的概率。

贝叶斯定理

X和Y的联合概率和条件概率满足如下关系:

\[P(X,Y) = P(Y|X) \cdot P(X) = P(X|Y) \cdot P(Y)\]

可得:

\[P(Y|X) = \frac{P(X|Y)P(Y)}{P(X)}\]

朴素贝叶斯基本思想

对于给定的待分类项,求出在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。

条件独立假设

假设给定类标号$ X_k $各属性之间条件独立

\[P(Y|X=x_k) = \prod_{i=1}^m P(y_i|X=x_k)\]

朴素贝叶斯分类器

我们可以计算出不同条件下的后验概率,再从中挑选出最大的概率,从而进行分类。

即:

\[max(P(Y|X)) = max(\frac{P(X|Y)P(Y)}{P(X)}) = \frac{max(P(X|Y)P(Y))}{P(X)}\]

不同条件下的P(Y)非常容易获得, 而:贝叶斯假设X是条件独立的

所以:

\[P(X|Y) = P(X_1|Y) \cdot P(X_2|Y) \cdot P(X_3|Y)...P(X_n|Y)\]

所以可以知道后验概率P(Y|X) 可以通过 P(X|Y)P(Y)P(X)计算得出。而P(X|Y)P(Y)P(X)又可以通过大量的数据计算得到(P(Y)P(X)也可以是先验概率)。

即:后验概率 = 先验概率 + 数据

举例

现给出10个被分类项的特征和已确定的类别,用来训练该分类器。

被分类项\特征 F1 F2 F3 F4 F5 F6 类别
U1 1 0 1 0 1 0 a
U2 1 1 0 1 0 0 a
U3 1 0 0 1 1 1 b
U4 0 0 1 0 1 1 a
U5 1 0 0 1 1 0 c
U6 1 1 1 1 1 0 b
U7 1 1 1 0 1 1 a
U8 1 0 1 0 1 0 c
U9 0 1 0 0 1 0 c
U10 0 1 1 0 1 0 a

由上示表格可计算出 P(F1|c)=0.66 ; P(F5|a)=0.8 ; P(F3|b)=0.5 ; P(c)=0.3…

现给出 U11 项的特征,进行预测推断该项应属于a,b,c中的哪一类

被分类项\特征 F1 F2 F3 F4 F5 F6 类别
U11 0 0 1 0 1 0 未知

由表格可得知:被分类项 U11 拥有特征F3和F5

预测分到类别a的概率: P(F3|F5|a) = P(F3|a)P(F5|a)P(a) = 0.8 * 0.8 * 0.5 = 0.32
预测分到类别b的概率: P(F3|F5|b) = P(F3|b)P(F5|b)P(b) = 0.5 * 1.0 * 0.2 = 0.1
预测分到类别c的概率: P(F3|F5|c) = P(F3|c)P(F5|c)P(c) = 0.33 * 1.0 * 0.3 = 0.099

因此可预测该项应分至类别a


Original link:https://izhangzhihao.github.io//2017/11/16/朴素贝叶斯分类/

Search

    Table of Contents