贝叶斯网络与朴素贝叶斯ppt课件.ppt

上传人:小飞机 文档编号:1449330 上传时间:2022-11-26 格式:PPT 页数:53 大小:2.05MB
返回 下载 相关 举报
贝叶斯网络与朴素贝叶斯ppt课件.ppt_第1页
第1页 / 共53页
贝叶斯网络与朴素贝叶斯ppt课件.ppt_第2页
第2页 / 共53页
贝叶斯网络与朴素贝叶斯ppt课件.ppt_第3页
第3页 / 共53页
贝叶斯网络与朴素贝叶斯ppt课件.ppt_第4页
第4页 / 共53页
贝叶斯网络与朴素贝叶斯ppt课件.ppt_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《贝叶斯网络与朴素贝叶斯ppt课件.ppt》由会员分享,可在线阅读,更多相关《贝叶斯网络与朴素贝叶斯ppt课件.ppt(53页珍藏版)》请在三一办公上搜索。

1、贝叶斯网络与朴素贝叶斯,张 嶷2010-02,2022/11/26,1,知识管理与数据分析实验室,一、贝叶斯法则 问题,如何判定一个人是好人还是坏人?,2022/11/26,知识管理与数据分析实验室,2,人的主观认识,一、贝叶斯法则 引言,当你无法准确的知悉一个事物的本质时,你可以依靠与事物特定本质相关的事件出现的次数来判断其本质属性的概率。如果你看到一个人总是做一些好事,那这个人就越可能是一个好人。数学语言表达就是:支持某项属性的事件发生得越多,则该属性成立的可能性就愈大贝叶斯法则,2022/11/26,知识管理与数据分析实验室,3,一、贝叶斯法则 起源,贝叶斯法则来源于英国数学家贝叶斯(T

2、homas Bayes)在1763年发表的著作论有关机遇问题的求解。,2022/11/26,知识管理与数据分析实验室,4,贝叶斯法则最初是一种用于概率论基础理论的归纳推理方法,但随后被一些统计学学者发展为一种系统的统计推断方法,运用到统计决策、统计推断、统计估算等诸多领域。,一、贝叶斯法则 贝叶斯公式,贝叶斯公式定义一 假定某个过程有若干可能的前提条件 ,则 表示人们事先对前提条件Xi出现的可能性大小的估计,即先验概率。定义二 假定某个过程得到了结果A,则 表示在出现结果A的前提下,对前提条件Xi出现的可能性大小的估计,即后验概率。,2022/11/26,知识管理与数据分析实验室,5,一、贝叶

3、斯法则 算例,全垄断市场条件下,只有一家企业M提供产品和服务。企业K考虑是否进入该市场。同时,企业M为阻止K进入该市场采取了相应的投资行为,而K能否进入该市场完全取决于M为阻止其进入所花费的成本大小。假设K并不知道原垄断者M是属于高阻挠成本类型还是低阻挠成本类型,但能确定,如果M属于高阻挠成本类型,K进入市场时M进行阻挠的概率是20%;如果M属于低阻挠成本类型,K进入市场时M进行阻挠的概率是100%。现设K认为M属于高阻挠成本企业的概率为70%,而在K进入市场后,M确实进行了商业阻挠。试以企业K的角度,判断企业M为高阻挠成本类型的概率。,2022/11/26,知识管理与数据分析实验室,6,一、

4、贝叶斯法则 算例,利用贝叶斯公式建模:前提条件:设M是高阻挠成本类型为X1,低阻挠成本类型为X2;结果:M对K进行阻挠为A;所求概率即为在已知结果 A的情况下,推断条件为X1的后验概率 ;已知 为0.2, 为1,P(X1)为0.7,P(X2)为0.3。,2022/11/26,知识管理与数据分析实验室,7,一、贝叶斯法则 算例,即,根据实际市场的运作情况,企业K可判断企业M为高阻挠成本类型的概率为0.32,换句话说,企业M更可能属于低阻挠成本类型。,2022/11/26,知识管理与数据分析实验室,8,根据贝叶斯公式可计算:,二、贝叶斯网络 引言,贝叶斯网络又称为信度网络,是基于概率推理的图形化网

5、络。它是贝叶斯法则的扩展,而贝叶斯公式则是这个概率网络的基础。贝叶斯网络适用于表达和分析不确定性和概率性事件,应用于有条件地依赖多种控制因素的决策过程,可以从不完全、不精确或不确定的知识或信息中做出推理。,2022/11/26,知识管理与数据分析实验室,9,二、贝叶斯网络 引言,贝叶斯网络由Judea Pearl于1988年提出,最初主要用于处理人工智能中的不确定信息。随后,逐步成为处理不确定性信息技术的主流,并在文本分类、字母识别、经济预测、医疗诊断、工业控制等领域得到了广泛的应用。目前,贝叶斯网络是不确定知识表达和推理领域最有效的理论模型之一。,2022/11/26,知识管理与数据分析实验

6、室,10,二、贝叶斯网络 定义,符号B(D,G)表示一个贝叶斯网络,包括两个部分:一个有向无环图(Directed Acyclic Graph, DAG)。它由代表变量的节点及连接这些节点的有向边构成。其中,节点代表随机变量,可以是任何问题的抽象,如:测试值、观测现象、意见征询等;节点间的有向边代表了节点间的互相关系(由父节点指向其后代节点)。,2022/11/26,知识管理与数据分析实验室,11,A,B,C,二、贝叶斯网络 定义,一个节点与节点之间的条件概率表(Conditional Probability Table, CPT)。如果节点没有任何父节点,则该节点概率为其先验概率。否则,该节

7、点概率为其在父节点条件下的后验概率。,2022/11/26,知识管理与数据分析实验室,12,目标类型,二、贝叶斯网络 定义,数学定义:贝叶斯网络B(D,P),D表示一个有向无环图, 是条件概率分布的集合,其中 是D中节点Xi的父节点集合。在一个贝叶斯网络中,节点集合 ,则其联合概率分布P(X)是此贝叶斯网络中所有条件分布的乘积:,2022/11/26,知识管理与数据分析实验室,13,二、贝叶斯网络 定义,这是一个最简单的包含3个节点的贝叶斯网络。其中, 是节点A的概率分布(先验概率),与 为节点B,C的概率分布(后验概率),2022/11/26,知识管理与数据分析实验室,14,A,B,C,二、

8、贝叶斯网络 研究前景,贝叶斯网络的特性:贝叶斯网络本身是一种不定性因果关联模型,它将多元知识图解可视化,贴切的蕴含了网络节点变量之间的因果关系及条件相关关系;贝叶斯网络具有强大的不确定性问题的处理能力,它用条件概率表达各个信息要素之间的相关关系,能在有限的、不完整的、不确定的信息条件下进行知识学习和推理;贝叶斯网络能有效的进行多源信息表达与融合,可将故障诊断与维修决策相关的各种信息纳入到网络结构中,并按节点的方式统一进行处理与信息融合。,2022/11/26,知识管理与数据分析实验室,15,二、贝叶斯网络 研究前景,贝叶斯网络的缺陷研究如何根据数据和专家知识高效、准确的建立贝叶斯网络,是十多年

9、来研究的热点之一,也是贝叶斯网络更加广泛、有效地用于实际问题领域的关键和焦点之一。目前对于这一类学习问题,主要有基于打分搜索的学习方法和基于依赖分析的学习方法,但前者存在搜索空间巨大,可能收敛于局部最优解等问题,后者则存在节点之间的独立性或条件独立性判断困难,高阶条件独立性检验的结果不够可靠等问题。,2022/11/26,知识管理与数据分析实验室,16,二、贝叶斯网络 研究前景,贝叶斯网络与马尔科夫链马尔科夫链蒙特卡罗(Markov Chain Monte Carlo,MCMC)方法是源于统计物理学和生物学的一类重要的随机抽样方法,该方法广泛应用于机器学习、统计和决策分析等领域的高维问题的推理

10、和求积运算。MHS(Metropolis-Hasting Sampler)抽样算法作为MCMC方法中常用的抽样方法之一,通过构建一条马尔科夫链,模拟一个收敛于Boltzmann分布的系统。将MHS抽样算法引入贝叶斯网络,能够较好的解决进化学习方法中由于个体趋同而产生的早熟问题,保证算法的学习精度。,2022/11/26,知识管理与数据分析实验室,17,二、贝叶斯网络 研究前景,贝叶斯网络与马尔科夫链此外,针对其计算精度低、收敛速度较慢的不足,随机拟MCMC方法也具有一定的优越性。不过,该算法存在的收敛速度慢和收敛性判断困难等问题仍未能得到有效解决。因此,如何更有效地将MCMC方法用于贝叶斯网络

11、的结构学习与推理学习成为近年来重要的研究方向之一。,2022/11/26,知识管理与数据分析实验室,18,三、朴素贝叶斯 引言,贝叶斯网络与朴素贝叶斯,2022/11/26,知识管理与数据分析实验室,19,三、朴素贝叶斯 贝叶斯分类器,贝叶斯分类器是用于分类的贝叶斯网络。该网络中通常包含类节点C,其取值来自类集合 ;还包含一组节点,表示用于进行分类的特征属性。对于贝叶斯网络分类器,若某一待分类的样本D,其分类特征值为 ,则样本D属于类别Ci的概率 , 应满足:,2022/11/26,知识管理与数据分析实验室,20,三、朴素贝叶斯 贝叶斯分类器,由贝叶斯公式可以得到:其中, 可由领域专家的经验获

12、得,而 和 的计算较为困难。,2022/11/26,知识管理与数据分析实验室,21,贝叶斯分类器的进一步简化如何进行?,三、朴素贝叶斯 贝叶斯分类器,贝叶斯网络分类器进行分类的两个阶段,2022/11/26,知识管理与数据分析实验室,22,两个阶段的时间复杂度均取决于特征值间的依赖程度,三、朴素贝叶斯 贝叶斯分类器,根据对特征值间不同关联程度的假设,可以得出各种贝叶斯分类器,其中较典型、研究较深入的贝叶斯分类器主要有四种,分别是:NB( Nave Bayes )TAN( Tree Augmented Nave-Bayes )BAN (BN Augmented Nave-Bayes )GBN(G

13、lobal Bayesian Networks),2022/11/26,知识管理与数据分析实验室,23,三、朴素贝叶斯 引入,朴素贝叶斯(Nave Bayes)算法是贝叶斯分类器中研究较多,使用较广的一种,在许多场合,朴素贝叶斯的分类算法可以与决策树和神经网络分类算法相媲美。朴素贝叶斯分类器的基础:假设一个指定类别中各个属性的取值是相互独立的,即在给定目标值的情况下,观察到联合的 的概率正好是对每个单独属性的概率乘积。,2022/11/26,知识管理与数据分析实验室,24,三、朴素贝叶斯 方法,2022/11/26,知识管理与数据分析实验室,25,考虑到 是一个取大的过程,则 对于结果不产生影

14、响,故可以看作系数a。则,原公式可以简化。,贝叶斯分类器,朴素贝叶斯简化,三、朴素贝叶斯 研究现状,朴素贝叶斯分类器由Duda和Hart于1937年提出,它是一个简单有效而且在实际使用中比较成功的分类器。现在,被广泛的运用在数据挖掘、模式识别、故障诊断等众多领域。朴素贝叶斯算法有很多优点:应用范围广泛;可以很好的扩展到超大规模问题,并且不需要通过搜索来寻找最大后验概率的朴素贝叶斯假设;可以轻松地应付有噪声的训练数据,并在适当的时候给出概率预测。,2022/11/26,知识管理与数据分析实验室,26,三、朴素贝叶斯 研究现状,朴素贝叶斯分类器假设一个指定类别中各属性的取值是相互独立的。这一假设可

15、以帮助有效减少在构造贝叶斯分类器时所需要进行的计算量。不过,实际的应用领域中,各个属性相互独立的假设很难成立,这也从很大程度上影响了朴素贝叶斯分类器的分类能力。当前,半朴素贝叶斯分类器、相关属性删除、概率值条件、贝叶斯树以及懒惰贝叶斯规则方法,都是对朴素贝叶斯算法的改进与推广,并在不同的领域取得了显著的成果。,2022/11/26,知识管理与数据分析实验室,27,四、算例 系统控制中的应用,在信息技术迅速发展及其在军事领域广泛应用的条件下,防空作战环境变得愈加复杂,也给现代防空作战中的空情探测带来了严峻的挑战。由于受到自身性能、电子干扰等因素的影响,不同的空情雷达对同一空中目标的探测的准确度不

16、同,从而影响了防控侦察预警信息的准确性,应用贝叶斯网络算法探讨计算不同雷达在探测同一目标的可信度,通过数据融合推断出空中目标的类型,是贝叶斯网络算法在系统可靠性领域的重要应用之一。,2022/11/26,知识管理与数据分析实验室,28,四、算例 系统控制中的应用,例4.1 假设两个空情雷达探测同一目标,目标可能的类型:A.大型战机、B.小型机密密集编队、C.小型战绩、D.巡航导弹。在时刻t,一号空情雷达报告的条件概率表如表所示。,2022/11/26,知识管理与数据分析实验室,29,实际类型,四、算例 系统控制中的应用,根据战前分析,假定权威人员预测战场中在某个作战阶段各种空袭兵器运用的概率为

17、:那么在一号空情雷达报告信息中,报告目标类型大型战机、小型机密集编队、小型战机、巡航导弹的概率分别为:P(A)、P(B)、P(C)、P(D)。,2022/11/26,知识管理与数据分析实验室,30,四、算例 系统控制中的应用,根据贝叶斯公式,则一号空情雷达报告目标类型为A的条件下,实际目标类型为A、B、C、D的条件概率分别为:,2022/11/26,知识管理与数据分析实验室,31,表示传感器报告目标为类型A的条件下,实际目标为A的概率; 表示实际目标类型为A的条件下,传感器报告目标类型为A的概率;P(A)表示存在类型为A的目标的先验概率;表示所有传感器报告目标类型为A的概率之和,即 。,四、算

18、例 系统控制中的应用,同样可以计算出一号空情雷达报告类型分别为B、C、D的条件下,实际目标类型的条件概率,如下表所示:,2022/11/26,知识管理与数据分析实验室,32,实际类型,四、算例 系统控制中的应用,于是,一号空情雷达报告假设目标类型为A的可信度为:同理可以得到第一号传感器报告假设目标类型为B、C、D的可信度,即 :,2022/11/26,知识管理与数据分析实验室,33,为了提高探测的准确性,一般要设置一个可信度阈值 ,将计算出的可信度值与可信度阈值 比较,看目标识别的可信度是否达到要求。假设 ,则以上的可信度值没有一个达到要求,因此需要重新进行识别,将以上计算的可信度值作为下一次

19、计算的先验概率。,四、算例 系统控制中的应用,现略去计算步骤,可得到基于两个传感器报告的目标类型为A、B、C、D的可信度为: 。同样假设 ,则可以知道B的可信度大于阈值,则可判定,空中目标类型为B。,2022/11/26,知识管理与数据分析实验室,34,四、算例 信息检索中的应用,贝叶斯网络检索模型可以计算术语与术语,术语与文档之间的条件概率。下图给出了一种贝叶斯网络检索模型,利用同义词对查询术语进行扩展,用于信息检索领域。,2022/11/26,知识管理与数据分析实验室,35,Q,T2,T3,T4,T5,R1,R2,R3,R4,R5,D1,T1,D2,四、算例 信息检索中的应用,假设有文档集

20、合d表示为 ;这些文档的索引术语集合r表示为 。右图即为贝叶斯网络模型扩展的拓扑结构,其中Q被定义为查询术语节点, 定义为文档节点, 定义为索引术语节点, 有一条指向被它索引的文档 的弧。,2022/11/26,知识管理与数据分析实验室,36,Q,T2,T3,T4,T5,R1,R2,R3,R4,R5,D1,T1,D2,四、算例 信息检索中的应用,用两个术语层来挖掘文档索引术语之间的关系,完全复制初始术语节点层r,得到另一个属于节点层t。对于查询术语Q,在索引术语层t查找他的同义词 ,则从Q 到 有一条弧; 从 指向 的弧,就是从 指向 ,其中总有从 指向 的弧, 是在一定衡量方法,2022/1

21、1/26,知识管理与数据分析实验室,37,Q,T2,T3,T4,T5,R1,R2,R3,R4,R5,D1,T1,D2,下与 最相关的术语集合。,四、算例 信息检索中的应用,在确定了贝叶斯网络模型之后,通过计算索引术语与术语之间、索引术语与文档之间的条件概率与文档节点的后验概率,就能够获得全部文档节点的概率,并根据概率大小排序获得与查询节点最匹配的检索结果。,2022/11/26,知识管理与数据分析实验室,38,四、算例 信息检索中的应用,考虑一种更简单的情况,即在查询节点和文档节点以外,只有一层术语节点的简单贝叶斯网络检索模型,如右图所示。,2022/11/26,知识管理与数据分析实验室,39

22、,Q,T2,T3,T4,T5,D1,T1,D2,D3,T6,四、算例 信息检索中的应用,例4.2 如图4-3所示,假设查询节点为Q,术语节点集合为 ,文档节点集合为 。根据图中弧线所对应的关系,计算查询节点Q更接近于文档节点集合中的哪一个?要求查询节点 更接近哪一个文档节点,即分别求 ,选择其中概率值最大的文档节点为所求。,2022/11/26,知识管理与数据分析实验室,40,四、算例 信息检索中的应用,根据朴素贝叶斯算法的原则,所有术语节点相互独立。且由图可知,除去查询节点层,所有术语节点均为根节点。所以定义每一个术语 相关的先验概率 ,则不相关的概率 ,其中M为集合中术语的数目(本例中M=

23、6)。一般情况下,任意根术语节点相关的先验概率很小,且与索引术语节点集合的规模成反比。,2022/11/26,知识管理与数据分析实验室,41,四、算例 信息检索中的应用,对于文档节点可知,任意文档节点 的父节点集合由该文档的所有索引术语节点组成,即 。令 为 中每个术语变量取值(相关或不相关)后的一个组合,利用一般正则模型的概率函数,定义文档 相关的条件概率为,2022/11/26,知识管理与数据分析实验室,42,四、算例 信息检索中的应用,其中, 为文档 的索引术语 的权重, ,且 。这意味着 中相关术语越多, 的相关概率值就越大。关于权重 的计算,本例不作介绍,仅给出相应数值如下表:,20

24、22/11/26,知识管理与数据分析实验室,43,四、算例 信息检索中的应用,所以根据贝叶斯公式,可以得到下式:由于术语节点相互独立,根据条件独立性得:如果 ,则 。否则, 。那么,上式可化简为:,2022/11/26,知识管理与数据分析实验室,44,四、算例 信息检索中的应用,2022/11/26,知识管理与数据分析实验室,45,四、算例 信息检索中的应用,则,代入数值得:,2022/11/26,知识管理与数据分析实验室,46,四、算例 信息检索中的应用,同理:可见 : ,即查询节点Q更接近文档节点 D3。,2022/11/26,知识管理与数据分析实验室,47,五、贝叶斯网络论文情况整理,2

25、010年2月18日,选择检索“主题”中含有“Bayesian network”(中文为“贝叶斯网络”)的论文,检索SCI数据库,返回结果2952篇;检索中国期刊全文数据库,返回结果1135篇;检索中国博士学位论文全文数据路,返回结果112篇。其中,大部分文章涉及工业控制、故障诊断、模式识别、数据挖掘等技术或领域。,2022/11/26,知识管理与数据分析实验室,48,五、贝叶斯网络论文情况整理,通过考察论文的被引频次等相关因素,可以认为在贝叶斯网络分类领域比较具有影响力的是来自美国加州大学伯克利分校的Friedman,他于1997年较早的提出了贝叶斯网络分类器的概念,并采用了朴素贝叶斯的方法进

26、行了深入的探讨与研究。2000年,他还将贝叶斯网络与生物学研究中的基因识别等问题相关联,取得了有益的成果。此外,还有来自微软公司的Heckerman和美国麻省理工学院的Lauffenburger,他们将贝叶斯网络方法成功运用到了数据挖掘和机器学习领域。,2022/11/26,知识管理与数据分析实验室,49,五、贝叶斯网络论文情况整理,在中国博士学位论文方面,论文主要集中在贝叶斯网络与应用学科的结合,如数据挖掘技术、模式识别技术等。同时还有部分论文则与生物、化学或工程领域的具体问题相结合,将贝叶斯网络作为一种分析方法或数据处理工具,应用到解决问题的过程中。,2022/11/26,知识管理与数据分

27、析实验室,50,五、贝叶斯网络论文情况整理,数据挖掘与分析领域:浙江大学王金龙全局和局部相结合的数据挖掘方法及应用研究浙江大学王明怡微阵列数据挖掘技术的研究清华大学吕雪松基因芯片数据处理方法及在乳腺癌数据中的应用故障诊断领域:中国科学技术大学杨昌昊基于不确定性理论的机械故障智能诊断方法研究浙江大学蒋荣欣多机器人编队导航若干关键技术研究,2022/11/26,知识管理与数据分析实验室,51,五、贝叶斯网络论文情况整理,模式识别领域:华中科技大学陈振学基于特征显著性的目标识别方法及其研究清华大学任海兵非特定人自然的人体动作识别中国科技大学吴国全基于模式的复合服务监管关键技术研究决策控制领域:华中科技大学雷杰网络安全威胁与态势评估方法研究国防科学技术大学孙兆林基于贝叶斯网络的态势估计方法研究,2022/11/26,知识管理与数据分析实验室,52,The End,2022/11/26,知识管理与数据分析实验室,53,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号