第7章贝叶斯分类算法ppt课件.pptx

上传人:小飞机 文档编号:1410783 上传时间:2022-11-20 格式:PPTX 页数:73 大小:2.03MB
返回 下载 相关 举报
第7章贝叶斯分类算法ppt课件.pptx_第1页
第1页 / 共73页
第7章贝叶斯分类算法ppt课件.pptx_第2页
第2页 / 共73页
第7章贝叶斯分类算法ppt课件.pptx_第3页
第3页 / 共73页
第7章贝叶斯分类算法ppt课件.pptx_第4页
第4页 / 共73页
第7章贝叶斯分类算法ppt课件.pptx_第5页
第5页 / 共73页
点击查看更多>>
资源描述

《第7章贝叶斯分类算法ppt课件.pptx》由会员分享,可在线阅读,更多相关《第7章贝叶斯分类算法ppt课件.pptx(73页珍藏版)》请在三一办公上搜索。

1、第7章 贝叶斯分类算法,贝叶斯分类概述朴素贝叶斯分类SQL Server朴素贝叶斯分类电子商务数据的贝叶斯分类,7.1 贝叶斯分类概述,7.1.1 贝叶斯定理,若已知P(C)是关于C的先验概率,P(A)是关于A的先验概率,P(A|C)表示在已知C发生后A的条件概率,如图7.1所示,求P(C|A)即A发生后C的后验概率。 后验概率的贝叶斯定理如下:,7.1.2 贝叶斯信念网络,定义7.1 贝叶斯信念网络(Bayesian Belief Network,BBN)简称贝叶斯网,它是一个概率网络,是一种基于概率推理的数学模型,解决复杂系统的不确定性和不完整性问题。用图形表示一组随机变量之间的概率关系。

2、贝叶斯网有两个主要成分:,一个有向无环图(DAG):图中每个节点代表一个随机变量,每条有向边表示变量之间的依赖关系。若有一条有向边从节点X到节点Y,那么X就是Y的父节点,Y就是X的子节点。一个条件概率表(CPT):把各节点和父节点关联起来。在CPT中,如果节点X没有父节点,则表中只包含先验概率P(X);如果节点X只有一个父节点Y,则表中包含条件概率P(X|Y);如果节点X有多个父节点Y1、Y2、Yk,则表中包含条件概率P(X|Y1、Y2、Yk)。,例如,假设节点X直接影响到节点Y,即XY,则用从X指向Y的箭头建立节点X到节点Y的箭头(X,Y),权值(即连接强度)用条件概率P(Y|X)来表示,如

3、图7.2所示。其中箭头表示条件依赖关系。,定义7.2 对于随机变量(A1、A2、An),任何数据对象(a1、a2、an)的联合概率可以通过以下公式计算获得:,其中,parent(Ai)表示Ai的父结点,P(ai|parent(Ai)对应条件概率表中关于Ai结点的一个入口。若Ai没有父结点,则P(ai|parent(Ai)等于P(ai)。,【例7.2】有X、Y和Z三个二元随机变量(取值只有0、1两种情况),假设X、Y之间是独立的,它们对应的条件概率表如表7.1所示。若已知条件概率P(X=1)=0.3,P(Y=1)=0.6,P(Z=1)=0.7,求P(X=0,Y=0|Z0)的后验概率。,表中的数值

4、表示的是后验概率P(Z|X,Y),如有:P(Z=1|X=1,Y=1)=0.8,P(Z=0|X=1,Y=1)=0.2。,画出相应的贝叶斯网如图7.15所示。一般地,在画贝叶斯网时,若已知P(X|Y)条件概率,则画一条从Y到X的有向边;若已知P(X|Y1、Y2、Yk)条件概率,则从Y1、Y2、Yk各画一条从Yi(1ik)到X的有向边。,P(X=0)=1-P(X=1)=0.7,P(Y=0)=1-P(Y=1)=0.4,P(Z=0)=1-P(Z=1)=0.3由于X、Y均没有父结点,所以联合概率:P(X=0,Y=0)=P(X=0)P(Y=0)=0.70.4=0.28依条件概率表有P(Z=0|X=0,Y=0

5、)=0.9。根据贝叶斯定理,有:P(X=0,Y=0|Z=0)=P(Z=0|X=0,Y=0)P(X=0,Y=0)/P(Z=0) =0.90.28/0.3=0.84。,7.2 朴素贝叶斯分类,7.2.1 朴素贝叶斯分类原理,1. 朴素贝叶斯分类过程 朴素贝叶斯分类基于一个简单的假定:在给定分类特征条件下,描述属性值之间是相互条件独立的。 朴素贝叶斯分类思想是:假设每个样本用一个n维特征向量X=x1,x2,xn来表示,描述属性为A1、A2、An(Ai之间相互独立)。类别属性为C,假设样本中共有m个类即C1、C2、Cm,对应的贝叶斯网如图7.5所示,其中P(Ai|C)是后验概率,可以通过训练样本集求出

6、。,给定一个未知类别的样本X,朴素贝叶斯分类将X划分到属于具有最高后验概率P(Ci|X)的类中,也就是说,将X分配给类Ci,当且仅当: P(Ci|X)P(Cj|X),1jm,ij,根据贝叶斯定理有:由于P(X)对于所有类为常数,只需要最大化P(X|Ci)P(Ci)即可。而P(X|Ci)是一个联合后验概率,即:P(X|Ci)=P(A1,A2,An|Ci)= 所以对于某个新样本(a1,a2,an),它所在类别为:,2. 后验概率P(Ak|Ci)的计算 计算对于后验概率P(ak|Ci)(也称为类条件概率)的方法如下: (1)如果对应的描述属性Ak是离散属性,可以通过训练样本集得到,P(ak|Ci)=

7、sik/si,其中sik是在属性Ak上具有值ak的类Ci的训练样本数,而si是Ci中的训练样本数。 (2)如果对应的描述Ak是连续属性,则通常假定该属性服从高斯分布。因而:,【例7.3】对于第6章表6.1的训练样本集S,所有属性为离散属性。n=2(描述属性个数),特征向量为A=a1,a2,描述属性为A1和A2(假设A1和A2之间相互独立)。类别属性为C,m=2(类别个数),C1=False,C2=True。对应的贝叶斯网如图7.7所示。求P(A1|C)和P(A2|C)。,(1)求条件概率P(Ci) 训练样本集S中有10个样本,即s=10,其中有6个属于C1的样本,4个属于C2的样本,所以有:s

8、1=6,s2=4P(C1)=s1/s=6/10=0.6P(C2)=s2/s=4/10=0.4,(2)求后验概率P(Ai|C) 考虑属性A1,按属性C和A1排序后的统计结果如表7.2所示。则:P(A1=Yes|C=False)=s11/s1=2/6=1/3P(A1=No|C=False)=s12/s1=4/6=2/3P(A1=Yes|C=True)=s21/s2=1/4P(A1=No|C=True)=s22/s2=3/4,考虑属性A2,按属性C和A2排序后的统计结果如表7.3所示。则:P(A2=大|C=False)=s11/s1=1/6P(A2=中|C=False)=s12/s1=4/6=2/3

9、P(A2=小|C=False)=s13/s1=1/6P(A2=大|C=True)=s21/s2=2/4=1/2P(A2=小|C=True)=s22/s2=2/4=1/2,7.2.2 朴素贝叶斯分类算法,对于一个样本(a1,a2,an),求其类别的朴素贝叶斯分类算法如下:,【例7.4】对于第6章表6.4所示的训练数据集S,有以下新样本X:年龄=30,收入=中,学生=是,信誉=中采用朴素贝叶斯分类算法求X所属类别的过程如下:,(1)由训练样本集S建立贝叶斯网如图7.8所示。,(2)根据类别“购买计算机”属性的取值,分为两个类,C1表示购买计算机为是的类,C2表示购买计算机为否的类,它们的先验概率P

10、(Ci)根据训练样本集计算如下:P(C1)=P(购买计算机=是)=9/14=0.64P(C2)=P(购买计算机=否)=5/14=0.36,(3)计算后验概率P(ai|Ci),先计算P(年龄=30|购买计算机=是)和P(年龄=30|购买计算机=否)。将训练数据集S按“购买计算机”和“年龄”属性排序后的统计结果如表7.4所示。则:P(年龄=30|购买计算机=是)=s11/s1=2/9=0.22P(年龄=30|购买计算机=否)=s21/s2=3/5=0.6,类似地求出下面的后验概率:P(收入=中|购买计算机=是)=4/9=0.44P(收入=中|购买计算机=否)=2/5=0.4P(学生=是|购买计算机

11、=是)=6/9=0.67P(学生=是|购买计算机=否)=1/5=0.2P(信誉=中|购买计算机=是)=6/9=0.67P(信誉=中|购买计算机=否)=2/5=0.4,(4)假设条件独立性,X=(年龄=30,收入=中,学生=是,信誉=中),使用以上概率得到:P(X|购买计算机=是)=P(年龄=30|购买计算机=是) P(收入 =中|购买计算机=是)P(学生=是|购买计算机=是) P(信誉=中|购买计算机=是) =0.220.440.670.67=0.04P(X|购买计算机=否)= P(年龄=30|购买计算机=否) P(收入=中|购买计算机=否)P(学生=是|购买计算机=否) P(信誉=中|购买计

12、算机=否) =0.60.40.20.4=0.02,(5)分类考虑“购买计算机=是”的类,有:P(X|购买计算机=是)P(购买计算机=是)=0.040.64=0.03考虑“购买计算机=否”的类,有:P(X|购买计算机=否)P(购买计算机=否)=0.020.36=0.01。因此,对于样本X,采用朴素贝叶斯分类预测为“购买计算机=是”。这与第6章采用决策树所得到的分类结果是一致的。,练一练,用朴素贝叶斯网络对以下保险销售客户数据进行分析:(1)求条件概率P(性别/是),P(婚姻状态/是),P( 是否有房/是), P(性别/否),P(婚姻状态/否),P( 是否有房/否)。(2)根据(1)中的条件概率,

13、使用朴素贝叶斯方法预测一客户(性别=女,婚姻状态=已婚,是否有房=无房)是否会购买此保险。,(1)求条件概率P(性别/是),P(婚姻状态/是),P( 是否有房/是), P(性别/否),P(婚姻状态/否),P( 是否有房/否):P(性别=女/是)=1/4, P(性别=男/是)=3/4,P(婚姻状态=未婚/是)=1,P(婚姻状态=已婚/是)=0,P( 是否有房=有/是)=1,P( 是否有房=无/是)=0,P(性别=女/否)=2/3, P(性别=男/否)=1/3,P(婚姻状态=未婚/否)=1/2,P(婚姻状态=已婚/否)=1/2,P( 是否有房=有/否)=5/6,P( 是否有房=无/否)=1/6(以

14、上6分)(2)根据(1)中的条件概率,使用朴素贝叶斯方法预测一客户(性别=女,婚姻状态=已婚,是否有房=无房)是否会购买此保险:P(购买保险=是)=2/5,P(购买保险=否)=3/5,(2分)因为:P(性别=女/是)=1/4, P(性别=女/否)=2/3 P(婚姻状态=已婚/是)=0,P(婚姻状态=已婚/否)=1/2, P( 是否有房=无/是)=0, P( 是否有房=无/否)=1/6朴素贝叶斯假定输入变量相互独立则P(性别=女,婚姻状态=已婚,是否有房=无房/购买保险=是)= P(性别=女/是)P(婚姻状态=已婚/是)P( 是否有房=无/是)=0则P(性别=女,婚姻状态=已婚,是否有房=无房/

15、购买保险=否)= P(性别=女/否)P(婚姻状态=已婚/否)P( 是否有房=无/否)=1/18(4分)考虑购买保险=“是”的类:P(性别=女,婚姻状态=已婚,是否有房=无房/购买保险=是)P(购买保险=是)=0考虑购买保险=“否”的类:P(性别=女,婚姻状态=已婚,是否有房=无房/购买保险=否)P(购买保险=否)=1/30 (4分)所以该客户的购买保险类别为“否”。(2分),补充: TAN(Tree Augmented Naive Bayes) 树增强朴素贝叶斯分类,1. 树增强朴素贝叶斯分类原理,朴素贝叶斯分类模型假设描述属性之间相互独立,这个假设在实际应用中往往是不成立的,这给正确分类带来

16、了一定影响。在描述属性个数比较多(15)或者属性之间相关性较大时,朴素贝叶斯分类模型的分类效率比不上决策树模型。而在属性相关性较小时,朴素贝叶斯分类模型的性能最为良好。,1997年Fredman等人在朴素贝叶斯分类算法的基础上提出了树增强朴素贝叶斯分类算法(TAN),允许各个描述属性之间形成树形结构。也就是说,在贝叶斯网中,结点C(对应类别属性)和结点A1,A2,An(对应描述属性)有有向边相连,结点C是A1,A2,An的父结点,此外,A1,A2,An之间有有向边相连并形成树。 对每个输入 变量节点,最多允许存在两个父节点,其中一个为输出变量节点,另一个为输入变量节点。 节点Ai 到节点Aj之

17、间的有向弧表示输入变量Ai对输出变量C的影响作用,不仅取决于变量自身,还取决于变量Aj。,例如,一个包括5个描述属性A1,A2,A5和一个类别属性C的树增强朴素贝叶斯分类的贝叶斯网如图所示。图中虚线是朴素贝叶斯分类的有向边,A3是根结点,并有:parent(A1)=C,A2,parent(A2)=C,A3,parent(A3)=C,parent(A4)=C,A3,parent(A5)=C,A4。,可以利用条件互信息描述在给定类别属性C时,描述属性A1、A2、An之间的依赖强度。在给定离散随机变量Z时,离散随机变量X和Y之间的条件互信息定义为:,其中,P(x,y,z)为X=x、Y=y、Z=z的联

18、合概率;P(x,y|z)为已知Z=z时,X=x、Y=y的联合条件概率;P(x|z)为已知Z=z时,X=x的条件概率;P(y|z)为已知Z=z时,Y=y的条件概率。 条件互信息体现了在给定Z条件下,变量X提供了多少关于变量Y的信息。条件互信息的值越小,表示变量X和变量Y的相关性越弱,值越大,相关性越强。1、计算所有输入变量对X和Y的条件互信息;2、依次找到与变量X具有最大条件互信息的变量Y,并以无向弧线连接点X和Y,得到最大权重跨度树;3、将无向弧转为有向弧。即任选一个输入变量节点作为根节点,所有弧线方向朝外。4、输出变量节点作为父节点与所有输入变量节点相连。,P(x,y,z)=p(x/y,z)

19、p(y,z)P(y,z)=p(y/z)p(z)P(x,y,z)=p(x/y,z) p(y/z)p(z),在树增强朴素贝叶斯分类中,如果通过分析训练样本集,得到了各个描述属性之间的树型结构,就可以估计类条件概率,从而可以得到新样本的类别。例如,在上面的树增强朴素贝叶斯分类中,类条件概率可以通过下式估计:P(A1,A2,A3,A4,A5|C)=P(A1|C,A2)P(A2|C,A3)P(A3|C)P(A4|C,A3)P(A5|C,A4)新样本(a1,a2,a3,a4,a5)的类别可以通过下式得到:,2. 树增强朴素贝叶斯分类算法,输入:训练数据集S输出:树增强朴素贝叶斯分类的贝叶斯网方法:其描述过

20、程如下:,扫描S,计算在给定类别属性C时,描述属性A1、A2、An之间的条件互信息;构造一个无向完全图,以描述属性为结点,以条件互信息为边的权重;构造上述无向完全图的最大生成树;在上述最大生成树中选择一个描述属性结点为根结点,将所有边的方向设置成由根结点指向外,把无向图转换成有向树(不能含有回路);在上述有向树中添加结点C和C到各个描述属性结点A1、A2、An的有向边,得到贝叶斯网;,【例7.5】对于第6章表6.4所示的训练数据集S ,有以下新样本X:年龄=3140,收入=中,学生=否,信誉=优采用树增强朴素贝叶斯分类算法求X所属类别的过程如下:,(1)构建贝叶斯网。这里描述属性个数n=4,由

21、这些描述属性对应的结点构成一个无向完全图。再由S求得各条件互信息如下:I(年龄;收入|购买计算机)=0.42I(年龄;学生|购买计算机)=0.22I(年龄;信誉|购买计算机)=0.31I(收入;学生|购买计算机)=0.42I(收入;信誉|购买计算机)=0.17I(学生;信誉|购买计算机)=0.06,I(年龄;学生|购买计算机),(年龄30/购买计算机=是)=2/9 p(学生=是/购买计算机=是)=6/9 p(年龄30/购买计算机=否)=3/5 p(学生=是/购买计算机=否)=1/5 p(年龄=3140/购买计算机=是)=4/9 p(学生=否/购买计算机=是)=3/9 p(年龄=3140/购买计

22、算机=否)=0 p(学生=否/购买计算机=否)=4/5 p(年龄40/购买计算机=是)=3/9p(年龄40/购买计算机=否)=2/5P(年龄30,学生=是/购买计算机=是)=2/9P(年龄30,学生=是/购买计算机=否)=0P(年龄30,学生=否/购买计算机=是)=0P(年龄30,学生=否/购买计算机=否)= 3/5 p(年龄=3140,学生=是/购买计算机=是)=2/9p(年龄=3140,学生=是/购买计算机=否)=0p(年龄=3140,学生=否/购买计算机=是)=2/9p(年龄=3140,学生=否/购买计算机=否)=0p(年龄40,学生=是/购买计算机=是)=2/9p(年龄40,学生=是/

23、购买计算机=否)=1/5 p(年龄40,学生=否/购买计算机=是)=1/9p(年龄40,学生=否/购买计算机=否)=1/5,P(年龄30,学生=是,购买计算机=是)=2/14P(年龄30,学生=是,购买计算机=否)=0P(年龄30,学生=否,购买计算机=是)=0P(年龄30,学生=否,购买计算机=否)= 3/14 p(年龄=3140,学生=是,购买计算机=是)=2/14p(年龄=3140,学生=是,购买计算机=否)=0p(年龄=3140,学生=否,购买计算机=是)=2/14p(年龄=3140,学生=否,购买计算机=否)=0p(年龄40,学生=是,购买计算机=是)=2/14p(年龄40,学生=是

24、,购买计算机=否)=1/14 p(年龄40,学生=否,购买计算机=是)=1/14p(年龄40,学生=否,购买计算机=否)=1/14,=0.0836+0+0+0.0690-0.0593+0+0.0863+0+0+0.0944+0- 0.0484 =0.2229,构成如图所示树增强朴素贝叶斯分类的贝叶斯网。,(2)分类过程如下:,考虑“购买计算机=是”的类:,P(购买计算机=是)9/14P(年龄=3140 |购买计算机=是)=4/9P(收入=中|购买计算机=是,年龄=3140)=1/4P(学生=否|购买计算机=是,收入=中)2/4P(信誉=优|购买计算机=是,年龄=3140)2/4P(购买计算机=

25、是)P(年龄=3140|购买计算机=是)P(收入=中|购买计算机=是,年龄=3140)P(学生=否|购买计算机=是,收入=中)P(信誉=优|购买计算机=是,年龄=3140)=9/144/91/42/42/4=1/56。,考虑“购买计算机=否”的类:,P(购买计算机=否)5/14P(年龄=3140 |购买计算机=否)=0P(购买计算机=否)P(年龄=3140|购买计算机=否)P(收入=中|购买计算机=否,年龄=3140)P(学生=否|购买计算机=否,收入=中)P(信誉=优|购买计算机=否,年龄=3140)=5/140=0。,因此,对于样本X,采用树增强朴素贝叶斯分类预测为“购买计算机=是”。同样

26、这与前面采用决策树所得到的分类结果是一致的。,由于树增强朴素贝叶斯分类算法捕获了变量之间的依赖关系,所以分类效果更优。,IBM SPSS Modeler,7.3 SQL Server朴素贝叶斯分类,7.3.1 建立朴素贝叶斯分类挖掘模型,朴素贝叶斯分类挖掘模型Bayes.dmm利用第6章6.3.1小节创建的DMK数据库的DST表,以及6.3.2小节创建的DMK1.dsv和DMK1-1.dsv数据源视图。,建立挖掘结构Bayes.dmm的步骤如下:, 启动SQL Server Data Tools,从“文件|最近使用的项目和解决方案”列表中选择DM项目。在解决方案资源管理器中,右键单击“挖掘结构

27、”,再选择“新建挖掘结构”启动数据挖掘向导。在“欢迎使用数据挖掘向导”对话框中单击“下一步”按钮。在“选择定义方法”页面上,确保已选中“从现有关系数据库或数据仓库”,再单击“下一步”。, 出现“创建数据挖掘结构”对话框,在“您要使用何种数据挖掘技术?”下拉列表中选择“Microsoft Naive Bayes”,如图7.9所示,单击“下一步”按钮。, 在出现的“选择数据源视图”中选择DMK1数据源视图,单击“下一步”按钮。 出现“指定表类型”对话框,在DST表的对应行中选中“事例”复选框,保持默认设置。单击“下一步”按钮。, 出现“指定定型数据”对话框,设置数据挖掘结构如图7.10所示。单击“

28、下一步”按钮。, 出现“指定列的内容和数据类型”对话框,保持默认值,单击“下一步”按钮。出现“创建测试集”对话框,将“测试数据百分比”选项的默认值30%更改为0。单击“下一步”按钮。 出现“完成向导”对话框,将“挖掘结构名称”和“挖掘模型名称”改为Bayes,如图7.11所示。然后单击“完成”按钮。, 单击“挖掘模型”选项卡,出现“算法参数”对话框,这里将MINIMUM_DEPENDENCY_PROBABLITY设定为0.1,如图7.12所示。这是因为本示例的属性个数较少的原因。,7.3.2 浏览朴素贝叶斯分类模型和分类预测,1. 部署朴素贝叶斯分类模型并浏览结果 在解决方案资源管理器中单击“

29、DM”,在出现的下拉菜单中选择“部署”命令,系统开始执行部署,完成后出现部署成功的提示信息。,单击“挖掘结构”下的“Bayes.dmm”,在出现的下拉菜单中选择“浏览”命令,或者单击“挖掘模型查看器”选项卡,系统创建的依赖关系网络如图7.13所示。从中看到,学生、年龄和信誉3个条件属性会影响是否购买计算机,而收入条件属性与是否购买计算机无关。,单击“属性配置文件”选项卡,其结果如图7.14所示,从中可以了解每个描述属性的状态分布情况。例如,在全部14个样本中,年龄为“40”的概率为0.357,年龄为“30”的概率为0.357,年龄为“3140”的概率为0.286。在购买计算机为“否”的5个样本

30、中,年龄为“40”的概率为0.4,年龄为“30”的概率为0.6,年龄为“3140”的概率为0。,单击“属性特征”选项卡,其结果如图7.15所示,从中可以了解不同群体的基本特征的概率。例如,学生为“否”的概率最大,年龄为“30”的概率次之,学生为“是”的概率最小。,单击“属性对比”选项卡,其结果如图7.16所示,从中可以比较不同群体间的特性,即类别的倾向性。如年龄为“3140”时完全倾向于购买计算机(购买计算机=“是”),而学生为“否”时完全倾向于不购买计算机(购买计算机=“否”)。,2. 分类预测对DST1表进行分类预测的过程如下: 单击“挖掘模型预测”选项卡,再单击“选择输入表”对话框中的“选择事例表”命令,出现“选择表”对话框,指定DMK1-1数据源中的DST1表,单击“确定”按钮。, 保持默认的字段联接关系,将DST1表中的各个列拖放到下方的列表中,选中“购买计算机”字段的前面“源”,从下拉列表中选择“DST挖掘模型”,如图7.17所示,表示其他字段数据直接来源于DST1表,只有“购买计算机”字段是采用前面训练样本集得到的Bayes挖掘模型来进行预测的。, 在任一空白处右击并在出现的菜单中选择“结果”命令,出现如图7.18所示的分类预测结果。从中看到和决策树的预测结果完全相同。,7.4 电子商务数据的贝叶斯分类,通过实际操作讲解。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号