Bayes统计(Full).ppt

上传人:小飞机 文档编号:5416342 上传时间:2023-07-05 格式:PPT 页数:77 大小:1.08MB
返回 下载 相关 举报
Bayes统计(Full).ppt_第1页
第1页 / 共77页
Bayes统计(Full).ppt_第2页
第2页 / 共77页
Bayes统计(Full).ppt_第3页
第3页 / 共77页
Bayes统计(Full).ppt_第4页
第4页 / 共77页
Bayes统计(Full).ppt_第5页
第5页 / 共77页
点击查看更多>>
资源描述

《Bayes统计(Full).ppt》由会员分享,可在线阅读,更多相关《Bayes统计(Full).ppt(77页珍藏版)》请在三一办公上搜索。

1、1,Bayes统计,2,Outline,统计学中的两个学派经典学派与贝叶斯学派Bayes学派Bayes统计思想三种信息Bayes公式后验分布对Bayes学派的批评共扼先验分布超参数及其确定多参数模型,3,频率(经典)学派的观点,概率指的是相对频率,是真实世界的客观属性。参数是固定的未知常数。由于参数不会波动,因此不能对其进行概率描述。统计过程应该具有定义良好的频率稳定性。如:一个95的置信区间应覆盖参数真实值至少95的频率。,统计学更多关注频率推断,4,贝叶斯学派的观点,贝叶斯推断采取了另外一个不同的立场:概率描述的是主观信念的程度,而不是频率。这样除了对从随机变化产生的数据进行概率描述外,我

2、们还可以对其他事物进行概率描述。可以对各个参数进行概率描述,即使它们是固定的常数。为参数生成一个概率分布来对它们进行推导,点估计和区间估计可以从这些分布得到,机器学习和数据挖掘更偏爱贝叶斯推断,5,Bayes统计学派,英国学者T.贝叶斯1763年在论有关机遇问题的求解中提出一种归纳推理的理论,后被一些统计学者发展为一种系统的统计推断方法,称为贝叶斯方法。采用这种方法作统计推断所得的全部结果,构成贝叶斯统计的内容。认为贝叶斯方法是唯一合理的统计推断方法的统计学者,组成数理统计学中的贝叶斯学派(Bayesian),其形成可追溯到20世纪30 年代。到5060年代,已发展为一个有影响的学派。时至今日

3、,其影响日益扩大。,6,Bayes统计思想,三种信息总体信息即总体分布或总体所属分布族给我们的信息。“总体服从正态分布”:样本信息即从总体抽取的样本给我们的信息。这是最新鲜的信息,并且愈多愈好。人们希望通过对样本的加工和处理对总体的某些特征作出较为精确的统计推断。,7,三种信息,基于上述两种信息进行的统计推断称为经典统计学。基本观点是:把数据(样本)看成是来自具有一定概率分布的总体,所研究的对象是这个总体而不局限于数据本身。适用于“大样本”情形;第三种信息:先验信息在抽样之前关于统计问题的一些信息,一般来源于经验和历史资料。现实例子:Savage(1961)的实验牛奶?茶?谁先倒入海顿(Hay

4、dn)?莫扎特(Mozart)?,8,三种信息,Bayes统计学基于上述三种信息(总体信息、样本信息和先验信息)进行的统计推断被称为Bayes统计学,9,Bayes统计思想,贝叶斯统计中的两个基本概念是先验分布和后验分布。先验分布:总体分布参数的一个概率分布。贝叶斯学派认为在关于总体分布参数的任何统计推断问题中,除了使用样本所提供的信息外,还必须规定一个先验分布,它是在进行统计推断时不可缺少的一个 要素。他们认为先验分布不必有客观的依据,可以部分地或完全地基于主观信念。后验分布。根据样本分布和未知参数的先验分布,用概率论中求条件概率分布的方法,求出的在样本已知下,未知参数的条件分布。因为这个分

5、布是在抽样以后才得到的,故称为后验分布。贝叶斯推断方法的关键是任何推断都必须且只须根据后验分布,而不能再涉及样本分布,即对没有观察到的样本不予考虑。,10,Bayes统计思想,Bayes统计模型将参数视为随机变量,并具有先验分布H();经典学派视 为未知常数;两个学派分歧的根源在于对于概率的理解:经典学派视概率为事件大量重复实验频率的稳定值;而Bayes学派赞成主观概率,将事件的概率理解为认识主体对事件发生的相信程度对于可以独立重复实验的事件,概率仍可视为频率稳定值。将 视为随机变量且具有先验分布具有实际意义,能拓广统计学应用的范围。,11,回忆贝叶斯规则,亦称贝叶斯定理(公式)条件概率利用贝

6、叶斯规则将数据和参数的分布联合起来,12,例:Bayes条件概率,公司经理考虑增加投资以改进生产设备,下属部门有两种意见:1:改进后,高质量产品可占90%2:改进后,高质量产品可占70%经理根据过去两部门意见有效情况,认为1可信程度为0.4,2的可信程度为0.6.(1)=0.4;(2)=0.6;(过去的经验,主观概率)为慎重起见,经理决定进行小规模实验观其结果。实验结果如下:A:试制5个产品,全是高质量的产品。依Bayes思想,A的发生可以用来修正原先的判断即求:(1|A),(2|A),13,例.Bayes条件概率,P(A|1)=0.95=0.590 P(A|2)=0.75=0.168由离散B

7、ayes公式:(1|A)=P(A|1)(1)/P(A)(2|A)=P(A|2)(2)/P(A)由全概率公式:P(A)=P(A|1)(1)+P(A|2)(2)=0.337所以:(1|A)=P(A|1)(1)/P(A)=0.700;(2|A)=P(A|2)(2)/P(A)=0.300;经理将两个建议的可信程度调整为0.7,0.3,14,例.Bayes条件概率,经过实验后,经理对增加投资改进质量兴趣增大,但还有顾虑,再做一次实验:实验结果如下:B:试制10个产品,有9个高质量产品。依Bayes思想,B的发生可以再用来修正判断即求:(1|B),(2|B),此时(1)=0.7(2)=0.3P(B|1)=

8、10*0.99*0.1=0.387P(B|2)=10*0.79*0.3=0.121P(B)=P(B|1)(1)+P(B|2)(2)=0.307(1|B)=P(B|1)(1)/P(B)=0.883;(2|B)=P(B|2)(2)/P(B)=0.117;经理将两个建议的可信程度调整为0.883,0.117,15,例.打靶问题:经典估计与Bayes估计,一个人打靶,打了n次,命中了m次,现在问此人打靶命中的概率应如何估计?从经典统计学或单凭直觉,一般采用m/n来估计但考虑下述两种情形:n=m=1,的估计为1n=100,m=100,的估计仍为1一次命中vs百次均命中,16,打靶问题-Bayes估计,设

9、事件A的概率为,(A)=,为估计作n次独立观察,其中事件A出现的次数为X,显然X服从二项分布b(n,),这就是似然函数假如在实验前对事件A没有什么了解,在这种场合下,贝叶斯建议以U(0,1)作为的先验分布,表示在(0,1)上每一点都是机会均等,没有偏爱,称为贝叶斯假设或称为无信息先验。此时的先验分布为:,17,打靶问题-Bayes估计,为利用Bayes公式,先计算样本X与参数的联合分布注意其与二项分布的区别再计算X的边缘分布:,18,打靶问题-Bayes估计,则参数的后验分布为:此时的估计值应为(x+1)/(n-x+1+x+1)=(x+1)/(n+2)当n=1,x=1时,的估计值为2/3当n=

10、100,x=100时,的估计值为101/102Bayes方法更合理些。,19,贝叶斯方法,贝叶斯推断的基本步骤如下:选择一个概率密度函数,用来表示在取得数据之前我们对某个参数 的信念。我们称之为先验分布。选择一个模型(在参数推断中记为)来反映在给定参数 情况下我们对x的信念。当得到数据 X1,X2,Xn 后,我们更新我们的信念并且计算后验分布。从后验分布中得到点估计和区间估计。,20,似然函数,假设我们有n个IID观测,记为,产生的数据为,记为,我们用如下公式替代现在似然函数真正解释为给定参数下数据的概率,21,后验概率,因此后验概率为其中 被称为归一化常数(normalizing const

11、ant)。该常数经常被忽略,因为我们关心的主要是参数 的不同值之间的比较。所以也就是说,后验和似然函数与先验的乘积成正比,22,贝叶斯点估计,后验的均值是一个常用的点估计极大后验估计(maximum a posteriori,MAP)是使后验 最大的 的值:是另一个常用的点估计,23,贝叶斯置信区间估计,为了得到贝叶斯区间估计,我们需找到a和b,使得令因此C称为 后验区间。注意:在多次试验中,并不保证在(1)100%的次数会落在后验区间内。事实上,在复杂的高维模型中,当样本数很少时,覆盖概率可能接近于0。注意:是随机的,24,例:Bernoulli I,令,假设先验为均匀分布,根据贝叶斯公式,

12、后验为其中 为成功的次数。,25,例:Bernoulli I,为了得到后验的均值,我们必须计算在这个例子中可以解析计算。后验恰好为Beta分布其中参数,均值为,26,例:Bernoulli I,p的极大似然估计为,为无偏估计。贝叶斯估计还可以写成其中 为先验的均值,,27,例:Bernoulli II,现在假设先验不是均匀分布,而是 则后验为Beta分布,参数为 和,即后验的均值为其中 为先验的均值。,28,29,例:正态分布,令,为简单起见,假设 已知,并假设先验为(共轭先验),对而言为常数,对而言为常数,30,例:正态分布,将二者相乘,去掉一些常数项,最后得到一个正态分布形式的核最后,的后

13、验为其中 为MLE 的标准误差。,31,例:正态分布,当 时,当n很大时,后验近似为当n固定而 时,对应先验趋近于均匀分布,上述结论也成立,32,例:正态分布,计算后验区间,使得所以 且因此,由于,所以最后95%的贝叶斯后验区间为由于,也可用 近似,同频率置信区间,33,参数的函数,问题:已知 的贝叶斯后验分布为,求 后验分布两种方法:利用CDF的定义,先求 的CDF,然后求后验密度,其中CDF为 仿真/模拟方法,34,仿真/模拟方法(Simulation),可以通过仿真而不是解析计算来得到点估计和区间估计。假设我们抽取样本 则 的直方图可以近似后验密度后验的均值 近似为后验的 置信区间为,其

14、中 为样本 的 样本分位数(quantile)一旦从 中抽取样本,令 则 为来自。这样避免了解析计算,但仿真可能很困难/复杂,35,例:Bernoulli l,抽样:令则 为 的IID,用直方图方法可以估计,36,MLE和贝叶斯,令 为 的极大似然估计,标准误差为在合适的正则条件下,后验均值的渐近分布为也就是说,另外,若 为渐近频率的 置信区间,则 也是贝叶斯后验的 区间:,37,MLE和贝叶斯,定义因为所以,分别展开,38,MLE和贝叶斯,将先验也展开,I0为先验中的信息m0最大化f(),39,MLE和贝叶斯,定义结合展开,得到,40,MLE和贝叶斯,后验简化为参见电子书219页结论:当n相

15、对参数数目很大时,如果先验符合真正的知识,则贝叶斯区间和频率区间相同。当数据越多时,先验的影响越弱。,41,对Bayes学派的批评,参数看成随机变量是否妥当?先验分布是否存在?如何选取?如何有效计算?,42,对Bayes学派的批评,43,对Bayes学派的批评,44,对Bayes学派的批评,但是在打靶问题中,对某个人的打靶水平事先一无所知,只能凭n次打靶的结果来估计。此时把每次命中的概率看成是随机变量,似乎有些勉强。但正因为对每次命中的概率没有任何知识,它在0与1之间取哪一个值的可能行全是相同的,它取各个不同的值有相同的机会,因此可以看成随机变量。,45,对Bayes学派的批评,贝叶斯假设:无

16、信息先验取为取值范围的均匀分布。对打靶问题,每次命中的概率在(0,1)内均匀分布是可以接受的但象正态分布的两个参数和2,均可在无限区间上取值,此时均匀分布是不存在的。另外,未知参数的选择存在任意性。可以取2也可以将为参数,按Bayes假设都可取均匀分布作为先验分布。但很显然,如果取为均匀分布(加入存在),则2不再是均匀分布,反之亦然。,46,选取先验分布,Bayes统计中,选取先验分布是一个相当重要的问题。若对参数选用均匀分布,但其概率密度函数g()往往不服从均匀分布,即往往不再服从Bayes假设;由Bayes统计,后验分布是统计推断的基础,而只有正确选择的先验分布,才有正确的后验分布。如何获

17、得无信息先验分布是Bayes方法的一个重大理论问题,47,先验知识从哪儿来呢?,我们可能在观测数据之前就有一些主观观点或真正的先验知识。但是,通常我们并没有真正的先验知识或者我们在贝叶斯估计时想更客观些,这时可以选择无信息的先验(noninformative prior)。或者可以从数据估计先验。这被称为经验贝叶斯(empirical Bayes),有时亦称第II类的极大似然(Type II maximum likelihood)。,48,扁平先验(Flat Priors),考虑一个扁平的先验:其中c 0为常数。但是,因此这不是一个pdf。我们称之为非正常先验(improper prior)。

18、通常非正常先验不是问题,只要后验为一个定义良好的pdf即可。扁平先验有时为病态定义的,因为一个参数的扁平先验并不意味参数的变换也是扁平先验。,49,通用先验,一个流行的想法是使用通用先验,或在任何场合下都可用的缺省的先验分布。该先验通常从似然函数推导得到。例子包括最小描述长度(minimum description length,MDL)和Jeffrey 先验。这些通常是完全无信息的。,50,Jeffrey 先验,Jeffrey提出的创建先验的规则:其中 为Fisher信息。例:对,则Jeffrey 先验为,即,与均匀分布很相近。,51,Jeffrey 先验,对于多元参数情况,Jeffrey

19、先验为其中 表示矩阵的行列式,为Fisher信息矩阵。,52,共扼先验分布,共扼先验分布:设是总体分布中的参数,()是的先验密度函数,假如由抽样信息算得的后验密度函数与()有相同的函数形式,则称()为的共扼先验分布。上述打靶例子中选定的先验分布为均匀分布,均匀分布又是Be(1,1),计算所得到的后验分布服从Be(x+1,n-x+1),也服从Beta分布。可以验证,将先验分布选定为Be(a,b)同样可以得到后验分布为Be(a+x,b+n-x)。上述关于正态分布均值的估计中选择的先验分布为正态分布,得到的后验分布仍为正态分布,53,例:正态方差的共扼先验分布,54,例:正态方差的共扼先验分布,55

20、,例:正态方差的共扼先验分布,56,共扼先验分布的优缺点,优点计算方便后验分布的一些参数可以得到很好的解释缺点方便性有可能导致错误的结论(给经典学派以口实)先验分布的合理性应作为首要考虑原则,57,常用共扼先验分布,58,多元参数问题,对于多元参数 的情况,原则上同处理单个参数相同。后验密度为:问题:如何对多个参数中的一个进行推断?计算感兴趣参数的后验边缘分布例如 的边缘分布为,59,多元参数问题,通常计算是很困难的,可用模拟的方法近似。从后验分布随机采样:上标表示不同的采样,收集每个样本中向量的第一个成分,得到 为 中的样本,这样可以避免积分运算。,60,多参数模型,例:,61,62,多参数

21、模型,63,64,贝叶斯假设检验,从贝叶斯观点看假设检验时一个很复杂的问题,我们只介绍其基本思想。,65,贝叶斯假设检验,数据和模型:检验:例:用X表示一个最近被污染区域中n个蛋中被孵出的蛋的数目,则,其中表示被孵出蛋的真正比例检验:其中0为被孵出蛋比例的经验值,66,先验分布,令 分别表示H0和H1的先验分布通常缺省为:在H1下,用 表示关于位置的信息的先验密度对二项分布,通常缺省为:,67,给定数据,H0 为真的后验概率,根据贝叶斯公式,,68,给定数据,H0 为真的后验概率,对上例中的二项检验问题,,69,贝叶斯因子,有人更喜欢用H0对H1的贝叶斯因子(Bayes factor)亦称为加

22、权似然比因为这样不涉及Hi的先验例:假设在上例中则而经典检验给出的p值为0.05,70,贝叶斯假设检验的优点,反映了真正的期望错误率:但p-values 不是。后验概率允许加入个人观点,如果喜欢的话。后验概率可用于多模型检验中:,71,Bayes统计计算,动态Monte Carlo抽样方法Markov Chain Monte CarloMetropolis-HastingsGibbs,72,贝叶斯推理 vs.频率推理,我们应该信仰频率学派还是贝叶斯学派?,73,贝叶斯学派的观点,先验信息:可以方便的结合先验信息,而且人们在做推断时也确实利用了先验信息,贝叶斯推断使得这个过程显式化提供了更多的结

23、构:对小样本很有效简练:允许人们对参数进行概率描述,使得似然函数与其逻辑结论一致,减小了数据和参数之间的区别统一:不必对点估计和区间估计各个解析推导,74,反对贝叶斯学派的观点,不方便:后验区间不是真正的置信区间,估计通常都是有偏估计以参数为中心:在很多非参数情况下似然很脆弱计算强度大:积分/仿真或近似很难处理不必要的复杂:即使没有先验信息也要有先验函数假设检验:贝叶斯假设检验对先验的选取很敏感,75,综上所述,在参数模型中,当样本数目很多时,贝叶斯方法和频率方法得到的近似相同的推理。但通常二者的结果不同贝叶斯方法和频率推理是为了解决不同的问题结合先验知识和数据:贝叶斯方法构造长期稳定的性能(

24、如置信区间):频率方法,76,综上所述,当参数空间为高维时,通常采用贝叶斯方法但当参数比数据还多时,没有统计方法能跨越自然的本质约束即使先验知识选择得当,也只能对“过去”预测很好,对将来不一定能预测很好You cannot get something for nothing.A little bit of data,will not help you to learn about a million dimensional,complex problem.,77,练习题,简述Bayes统计思想的主要内容什么是共扼先验分布?掌握打靶问题命中率,正态分布方差已知情况下均值的Bayes估计计算过程,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号