朴素贝叶斯分类
准备知识
-
先验概率:
事件发生前的预判概率。可以是基于历史数据的统计,可以由背景常识得出,也可以是人的主观观点给出。一般都是单独事件概率,如P(x),P(y)。Eg: 明天堵车的概率为二分之一,是根据生活经验得出的。
-
后验概率:
事件发生后求的反向条件概率;或者说,基于先验概率求得的反向条件概率。概率形式与条件概率相同。Eg: 已知堵车,求车祸导致的堵车的概率。
-
条件概率:
一个事件发生后另一个事件发生的概率。一般的形式为
P(x|y)
表示y发生的条件下x发生的概率。
贝叶斯定理
X和Y的联合概率和条件概率满足如下关系:
\[P(X,Y) = P(Y|X) \cdot P(X) = P(X|Y) \cdot P(Y)\]可得:
\[P(Y|X) = \frac{P(X|Y)P(Y)}{P(X)}\]朴素贝叶斯基本思想
对于给定的待分类项,求出在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。
条件独立假设
假设给定类标号$ X_k $各属性之间条件独立
\[P(Y|X=x_k) = \prod_{i=1}^m P(y_i|X=x_k)\]朴素贝叶斯分类器
我们可以计算出不同条件下的后验概率,再从中挑选出最大的概率,从而进行分类。
即:
\[max(P(Y|X)) = max(\frac{P(X|Y)P(Y)}{P(X)}) = \frac{max(P(X|Y)P(Y))}{P(X)}\]不同条件下的P(Y)非常容易获得, 而:贝叶斯假设X是条件独立的
所以:
\[P(X|Y) = P(X_1|Y) \cdot P(X_2|Y) \cdot P(X_3|Y)...P(X_n|Y)\]所以可以知道后验概率P(Y|X)
可以通过 P(X|Y)
、P(Y)
、P(X)
计算得出。而P(X|Y)
、P(Y)
和P(X)
又可以通过大量的数据计算得到(P(Y)
和P(X)
也可以是先验概率)。
即:后验概率 = 先验概率 + 数据
举例
现给出10个被分类项的特征和已确定的类别,用来训练该分类器。
被分类项\特征 | F1 | F2 | F3 | F4 | F5 | F6 | 类别 |
---|---|---|---|---|---|---|---|
U1 | 1 | 0 | 1 | 0 | 1 | 0 | a |
U2 | 1 | 1 | 0 | 1 | 0 | 0 | a |
U3 | 1 | 0 | 0 | 1 | 1 | 1 | b |
U4 | 0 | 0 | 1 | 0 | 1 | 1 | a |
U5 | 1 | 0 | 0 | 1 | 1 | 0 | c |
U6 | 1 | 1 | 1 | 1 | 1 | 0 | b |
U7 | 1 | 1 | 1 | 0 | 1 | 1 | a |
U8 | 1 | 0 | 1 | 0 | 1 | 0 | c |
U9 | 0 | 1 | 0 | 0 | 1 | 0 | c |
U10 | 0 | 1 | 1 | 0 | 1 | 0 | a |
由上示表格可计算出 P(F1|c)
=0.66 ; P(F5|a)
=0.8 ; P(F3|b)
=0.5 ; P(c)
=0.3…
现给出 U11 项的特征,进行预测推断该项应属于a,b,c中的哪一类
被分类项\特征 | F1 | F2 | F3 | F4 | F5 | F6 | 类别 |
---|---|---|---|---|---|---|---|
U11 | 0 | 0 | 1 | 0 | 1 | 0 | 未知 |
由表格可得知:被分类项 U11 拥有特征F3和F5
预测分到类别a的概率: P(F3|F5|a) = P(F3|a)P(F5|a)P(a) = 0.8 * 0.8 * 0.5 = 0.32
预测分到类别b的概率: P(F3|F5|b) = P(F3|b)P(F5|b)P(b) = 0.5 * 1.0 * 0.2 = 0.1
预测分到类别c的概率: P(F3|F5|c) = P(F3|c)P(F5|c)P(c) = 0.33 * 1.0 * 0.3 = 0.099
因此可预测该项应分至类别a
Original link:https://izhangzhihao.github.io//2017/11/16/朴素贝叶斯分类/