朴素贝叶斯分类(第九章)ppt课件.ppt

上传人:牧羊曲112 文档编号:2069877 上传时间:2023-01-06 格式:PPT 页数:35 大小:416KB
返回 下载 相关 举报
朴素贝叶斯分类(第九章)ppt课件.ppt_第1页
第1页 / 共35页
朴素贝叶斯分类(第九章)ppt课件.ppt_第2页
第2页 / 共35页
朴素贝叶斯分类(第九章)ppt课件.ppt_第3页
第3页 / 共35页
朴素贝叶斯分类(第九章)ppt课件.ppt_第4页
第4页 / 共35页
朴素贝叶斯分类(第九章)ppt课件.ppt_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《朴素贝叶斯分类(第九章)ppt课件.ppt》由会员分享,可在线阅读,更多相关《朴素贝叶斯分类(第九章)ppt课件.ppt(35页珍藏版)》请在三一办公上搜索。

1、朴素贝叶斯分类,第九章,1.定义,A,B,AB,条件概率,若 是全集,A、B是其中的事件(子集),P表示事件发生的概率,则,为事件B发生后A发生的概率。,乘法定理,注:当P(AB)不容易直接求得时,可考虑利用P(A)与P(B|A)的乘积或P(B)与P(A|B)的乘积间接求得。,乘法定理的推广,1.集合(样本空间)的划分,二、全概率公式,2.全概率公式,全概率公式,图示,证明,化整为零各个击破,说明 全概率公式的主要用途在于它可以将一个复杂事件的概率计算问题,分解为若干个简单事件的概率计算问题,最后应用概率的可加性求出最终结果.,例1 有一批同一型号的产品,已知其中由一厂生产的占 30%,二厂生

2、产的占 50%,三厂生产的占 20%,又知这三个厂的产品次品率分别为2%,1%,1%,问从这批产品中任取一件是次品的概率是多少,设事件 A 为“任取一件为次品”,解,由全概率公式得,贝叶斯公式,Bayes公式的意义,假设导致事件A发生的“原因”有Bi(i=1,2,n)个。它们互不相容。现已知事件A确已经发生了,若要估计它是由“原因”Bi所导致的概率,则可用Bayes公式求出.即可从结果分析原因.,证明,乘法定理:,例2 贝叶斯公式的应用,解,(1)由全概率公式得,(2)由贝叶斯公式得,由以往的数据分析得到的概率,叫做先验概率.,而在得到信息之后再重新加以修正的概率 叫做后验概率.,先验概率与后

3、验概率,贝叶斯分类,贝叶斯分类器是一个统计分类器。它们能够预测类别所属的概率,如:一个数据对象属于某个类别的概率。贝叶斯分类器是基于贝叶斯定理而构造出来的。对分类方法进行比较的有关研究结果表明:简单贝叶斯分类器(称为基本贝叶斯分类器)在分类性能上与决策树和神经网络都是可比的。在处理大规模数据库时,贝叶斯分类器已表现出较高的分类准确性和运算性能。,20,贝叶斯分类,定义:设X是类标号未知的数据样本。设H为某种假定,如数据样本X属于某特定的类C。对于分类问题,我们希望确定P(H|X),即给定观测数据样本X,假定H成立的概率。贝叶斯定理给出了如下计算P(H|X)的简单有效的方法:P(H)是先验概率,

4、或称H的先验概率。P(X|H)代表假设H成立的情况下,观察到X的概率。P(H|X)是后验概率,或称条件X下H的后验概率。,21,贝叶斯分类,先验概率泛指一类事物发生的概率,通常根据历史资料或主观判断,未经实验证实所确定的概率。而后验概率涉及的是某个特定条件下一个具体的事物发生的概率,22,贝叶斯分类,例如:P(x1)=0.9:x1-为正常细胞的概率0.9(先验概率)P(x2)=0.1:x2-为异常细胞的概率0.1(先验概率)对某个具体的对象y,P(x1|y):表示y的细胞正常的概率是0.82(后验概率)P(x2|y):表示y的细胞异常的概率是0.18(后验概率),朴素贝叶斯分类,朴素贝叶斯分类

5、的工作过程如下:(1)每个数据样本用一个n维特征向量X=x1,x2,xn表示,分别描述对n个属性A1,A2,An样本的n个度量。(2)假定有m个类C1,C2,Cm,给定一个未知的数据样本X(即没有类标号),分类器将预测X属于具有最高后验概率(条件X下)的类。也就是说,朴素贝叶斯分类将未知的样本分配给类Ci(1im)当且仅当P(Ci|X)P(Cj|X),对任意的j=1,2,m,ji。这样,最大化P(Ci|X)。其P(Ci|X)最大的类Ci称为最大后验假定。根据贝叶斯定理,24,朴素贝叶斯分类(续),(3)由于P(X)对于所有类为常数,只需要P(X|Ci)*P(Ci)最大即可。如果Ci类的先验概率

6、未知,则通常假定这些类是等概率的,即P(C1)=P(C2)=P(Cm),因此问题就转换为对P(X|Ci)的最大化(P(X|Ci)常被称为给定Ci时数据X的似然度,而使P(X|Ci)最大的假设Ci称为最大似然假设)。否则,需要最大化P(X|Ci)*P(Ci)。注意,类的先验概率可以用P(Ci)=si/s计算,其中si是类Ci中的训练样本数,而s是训练样本总数。,25,朴素贝叶斯分类(续),(4)给定具有许多属性的数据集,计算P(X|Ci)的开销可能非常大。为降低计算P(X|Ci)的开销,可以做类条件独立的朴素假定。给定样本的类标号,假定属性值相互条件独立,即在属性间,不存在依赖关系。这样,联合概

7、率分布,26,朴素贝叶斯分类(续),(5)对未知样本X分类,也就是对每个类Ci,计算P(X|Ci)*P(Ci)。样本X被指派到类Ci,当且仅当P(Ci|X)P(Cj|X),1jm,ji,换言之,X被指派到其P(X|Ci)*P(Ci)最大的类。,“打网球”的决定,之前用ID3算法求解的一个例子,实例,统计结果,统计结果,对下面的情况做出决策:,统计结果,对下面的情况做出决策:,模型:,决策:,?,贝叶斯公式:,E为第二个表中的取值、分别计算D=yes/no的概率,统计结果,对下面的情况做出决策:,已经计算出:,同理可计算:,利用公式:,最后得到:,决策:,对下面的情况做出决策:,作业(下周一交),前10个样本作为训练样本,后4个作为测试样本,用Bayes方法进行决策。,作业2,按毕业设计论文格式撰写Apriori算法的上机报告下次上机课之后交,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号