统计机器学习(陈明)基础-probability.ppt

上传人:牧羊曲112 文档编号:6056662 上传时间:2023-09-18 格式:PPT 页数:117 大小:1.24MB
返回 下载 相关 举报
统计机器学习(陈明)基础-probability.ppt_第1页
第1页 / 共117页
统计机器学习(陈明)基础-probability.ppt_第2页
第2页 / 共117页
统计机器学习(陈明)基础-probability.ppt_第3页
第3页 / 共117页
统计机器学习(陈明)基础-probability.ppt_第4页
第4页 / 共117页
统计机器学习(陈明)基础-probability.ppt_第5页
第5页 / 共117页
点击查看更多>>
资源描述

《统计机器学习(陈明)基础-probability.ppt》由会员分享,可在线阅读,更多相关《统计机器学习(陈明)基础-probability.ppt(117页珍藏版)》请在三一办公上搜索。

1、Classification,Input:x=x1,x2T,Output:C 0,1Prediction:,1,Lecture Notes for E Alpaydn 2010 Introduction to Machine Learning 2e The MIT Press(V1.0),Bayes Rule,2,posterior,likelihood,prior,evidence,Lecture Notes for E Alpaydn 2010 Introduction to Machine Learning 2e The MIT Press(V1.0),K=2 Classes,Dicho

2、tomizer(K=2)vs Polychotomizer(K2)g(x)=g1(x)g2(x)Log odds:,3,Lecture Notes for E Alpaydn 2010 Introduction to Machine Learning 2e The MIT Press(V1.0),Bayes Rule:K2 Classes,4,Lecture Notes for E Alpaydn 2010 Introduction to Machine Learning 2e The MIT Press(V1.0),Parametric Classification,5,Lecture No

3、tes for E Alpaydn 2010 Introduction to Machine Learning 2e The MIT Press(V1.0),数学基础的重要性,研究数据分析必须打好概率和统计基础Using fancy tools like neural nets,boosting and support vector machines without understanding basic statistics like doing brain surgery before knowing how to use a band-aid.,预修课程:概率统计,主要内容:概率、随机变

4、量及其分布、常用分布、多元随机向量随机变量的变换及其分布独立、条件独立、贝叶斯公式期望、方差,第一章:概率,概率:定量描述不确定性的数学语言例:P(牙痛是由虫牙引起)=0.8 20%所有其他可能实际数值可能来源于统计数据、模型、启发规则或猜测更精确的概率定义:代数、可测量、测度(参考CB Chp1),概率、样本空间和事件,考虑一个事先不知道输入的试验:试验的样本空间 是所有可能输出的集合事件A是样本空间的子集对每个事件A,我们定义一个数字P(A),称为A 的概率。概率根据下述公理定义:,概率公理,事件A 的概率是一个非负实数P(A)0合法命题的概率为1P()=1两两不相交(互斥)事件A1,A2

5、,从上述三个公理,可推导出概率的所有的其他性质。,公理的推论,不可满足命题的概率为0P()=0P(A Ac)=0对任意两个事件A、BP(A B)=P(A)+P(B)P(A B)对事件A的补事件AcP(Ac)=1 P(A)对任意事件A0 P(A)1,概率的解释,概率的“真正意义”仍是一个非常有争议的论题没有一种解释被一致接受概率两种主要的解释:频率解释概率=一个事件的相对频率(大量试验情况下)对应频率推断(点估计、置信区间)可信度解释概率=观测者对可能性的判断“贝叶斯概率”对应贝叶斯推断,概率的频率解释,在相似试验条件下,进行多次重复试验,得到某个特定输入的相对频率(如掷骰子或抛硬币)满足概率公

6、理只有试验才能确定概率但是试验次数多少次才足够多?相似条件?(条件完全相同?)P(正面朝上)?P(你本门课程得90分以上)?P(明天会下雨)?,概率的可信度解释,亦称“贝叶斯概率”概率表示观测者对可能性的判断定量表示某人的信念强度是基于个人的信念和信息“主观概率”而不是“真正的概率”并没有对世界客观的表述主观判断完全一致没有矛盾?不同人之间没有统一的客观基准满足概率公理(在保持一致性的情况下),独立事件,当P(AB)=P(A)P(B)时,称两个事件A与B独立,记为可推广到有限个事件系列可通过两种方式确定事件之间的独立性显式假设:如抛硬币试验中,假设每次抛掷都是独立的数值推导:满足P(AB)=P

7、(A)P(B)如在一个公正的掷骰子的试验中,则,不相交 独立,独立总结,独立总结若P(AB)=P(A)P(B),则A和B独立。独立某些时候是假设的,某些时候推导得到的。有正概率的不相交事件不一定独立。,条件概率,当P(B)0 时,给定B时A的条件概率为给定任意B,若P(B)0,则 也是一个概率,即满足概率的三个概率公理 当 不相交时,,条件概率,下列等式不一定成立,条件概率,例1.13:对疾病D的医学测试结果输出为+和-,其概率分别为:假设某个测试的结果为+,则得病的概率为多少?,检验相当正确,不要相信直觉!,得病概率很小,条件概率,例1.13(续):假设某个测试的结果为-,则得病的概率为多少

8、?,得病概率几乎为0,独立与条件概率,若A与B独立事件,则知道B不会改变A的概率当A与B不独立时Vs.A与B独立时:,例:条件独立,赌徒的谬误:戴伦伯特系统参与者赌红色或黑色,每赌失败一次就加大赌数,每赌赢一次就减少赌数。如果小小的象牙球让他赢了,那么就会有某种原因“记住”它,不太可能让他在下一次再赢;如果小球使他输了,它将感到抱歉,很可能帮助他在下一次赢。事实上:每一次旋转,轮盘都与以前旋转的结果无关。,摘自数学悖论奇景,条件概率总结1.如果 P(B)0,则2.对给定的B,P(.|B)满足概率公理。通常,对给定的A,P(A|.)不满足概率公理。3.通常,P(A|B)P(B|A)。4.当且仅当

9、P(A|B)=P(A)时,A 与B 独立。,贝叶斯公式,全概率公式:令A1,Ak 为 的一个划分,则对任意事件B,有。贝叶斯公式:令A1,Ak 为 的一个划分且对每个i,i=1,2,k。若,则对每个 有,后验概率,先验概率,例:邮件分类,例1.19:email可分为三类:A1=“垃圾,”A2=“低优先级”和A3=“高优先级”。根据先前的经验,我们发现则:0.7+0.2+0.1=1。令B表示email中包含单词“free”。根据先前的经验,,思考,如果收到一封带有单词“free”的邮件,该邮件为垃圾邮件的概率是多少?如果仅以单词“free”为先验来进行邮件邮件分类,如何判别一封邮件是否为垃圾邮件

10、?,第二章:随机变量,上节课内容概率理论概率公理及推论随机变量之间的关系:条件概率、独立/条件独立、贝叶斯公式本节课内容随机变量及其分布随机变量变换常见分布族多元随机向量的分布联合分布、边缘分布、条件分布、独立,随机变量,统计推断是与数据相关的。随机变量就是将样本空间/随机事件与数据之间联系起来的纽带随机变量是一个映射,将一个实数值 赋给一个试验的每一个输出例2.2:抛10次硬币,令X()表示序列中正面向上的次数,如当=HHTHHTHHTT,则 X()=6。,随机变量的概率描述,事件的概率 随机变量的概率描述给定一随机变量X及实数子集A,定义 例2.4:抛2次硬币,令X表示正面向上的次数,则,

11、其中X表示随机变量,x表示X可能的取值,随机变量的分布函数,随机变量X的累积分布函数(cumulative distribution function,CDF)定义为CDF是一个非常有用的函数:包含了随机变量的所有信息。CDF的性质:略(见书),有时记为F,例:随机变量的CDF,例2.6:公正地抛硬币2次,令X表示正面向上的次数,则CDF右连续、非减函数对所有实数x都有定义虽然随机变量只取0、1、2,离散型随机变量的概率函数,离散型随机变量的概率函数(probability function or probability mass function,pmf)定义为对所有的 CDF与pmf之间的

12、关系为:,有时记为 f,例:离散型随机变量的pmf,例2.10:公正地抛硬币2次,令X表示正面向上的次数,则概率函数为:,连续型随机变量的概率(密度)函数,对连续型随机变量X,如果存在一个函数,使得对所有的x,且对任意 有则函数 被称为概率密度函数(probability density function,pdf)。CDF与pdf之间的关系:在所有 可微的点x,则,注意:是可能的,例:连续型随机变量的CDF和pmf,例2.12:设X有PDF:显然有有该密度的随机变量为(0,1)上的均匀分布:Uniform(0,1),即在0和1之间随机选择一个点。其CDF为:,分位函数(quantile fun

13、ction),令随机变量X的CDF为F,CDF的反函数或分位函数(quantile function)定义为其中。若F严格递增并且连续,则 为一个唯一确定的实数x,使得。为增函数中值(median):一个很有用的统计量,对噪声比较鲁棒,随机变量的变换,X:老的随机变量,Y:新的随机变量,离散:,离散型随机变量的变换,例2.45:假设Y的取值比X少,因为该变换不是一一映射。,连续型随机变量的变换,方法1:CDF方法变换的三个步骤对每个y,计算集合计算CDFPDF为,连续型随机变量的变换,方法2:Jacobian方法当r为单调增函数/减函数,定义r的反函数,则当X、Y存在一一映射时,上述结论仍可用

14、分区间:在每个 区间内为单调函数,可分区间利用上述结论,例:连续型随机变量的变换,例2.46:令求Y的概率密度函数,例:连续型随机变量的变换,例2.46:则CDF法:Jacobian方法,例:连续型随机变量的变换,例:概率积分变换 X有连续CDF,定义随机变量Y为,则Y为0,1上的均匀分布,即对随机数产生特别有用,0.5,1.0,0,二元随机向量的联合分布,离散型随机变量的联合分布:令X、Y为一对离散型随机变量,联合概率函数(pmf)定义为联合累积分布函数(CDF)为:,(X,Y):随机向量,例2.18:对如下有两个随机变量的二元分布,变量X和Y取值为0、1,则。,二元随机向量的联合分布,连续

15、型随机变量的联合分布:令X、Y对一对连续型随机变量,联合概率密度函数(pdf)定义为 对任意集合联合概率分布函数(CDF)为:,边缘分布,离散型随机变量:,边缘分布,连续型随机变量:,联合分布包含了随机向量概率分布的信息联合分布唯一确定了边缘分布,但反之通常不成立,独立,PDF可以因式分解,独立,随机变量之间的关系,独立 当且仅当不独立:随机变量之间的关系用条件分布描述条件分布:,条件分布,离散型随机变量的条件概率函数:对连续型随机变量,条件概率定义相同,但解释不同,第一节课中随机事件的条件概率:,条件分布,给定变量Y时,在 X上的概率分布对Y的每个可能取值,对X都定义有一个概率分布 是一个概

16、率分布,满足概率分布的所有性质,如,例:条件分布,联合分布、边缘分布与条件分布,边缘分布与联合分布:条件分布与边缘分布、联合分布:联合分布与条件分布、边缘分布:,条件概率 链规则(Chain Rule),链规则或,贝叶斯规则,贝叶斯规则,似然,先验,后验,贝叶斯规则中的边缘化,给定 和,推导经常使用贝叶斯规则的归一化因子 通过边缘化,,已知,?,边缘分布,通过使用(1)边缘化和(2)链规则,给定,可以计算:,条件独立,(绝对)独立:给定Y,不会对X增加任何信息条件独立:若在给定Z的情况下,X与Y条件独立,则 一旦已知Z,Y不会对X提供额外的信息例:,联合概率,联合概率:定义了所有可能状态的概率

17、二值变量的情况下有 项如果这些变量是独立的,则 对二值变量,用n个独立变量表示,联合概率,例:但若Y和W 在给定X下独立,且Z和W、X在给定Y下独立,则 真实问题通常是这样的,贝叶斯网络就是利用了条件独立的性质,链规则推广,条件概率的定义递归定义:,多元随机向量的分布,令随机向量,其中 为随机变量,用 表示X的pdf/pmf,先前讨论的关于二元随机向量分布的结论都可以推广到多元随机向量,如可以定义边缘分布、条件分布等当随机向量 互相独立时,随机向量相互独立两两独立,但反之不成立,随机向量的变换,令,求1.对每个z,计算集合2.计算CDF3.PDF为 例 2.48,常见分布族,离散型随机变量 C

18、h2,p25均匀(Uniform)分布贝努利(Bernoulli)分布二项(Binnomial)分布 超几何(HyperGeometric)分布几何(Geometric)分布泊松(Possion)分布连续型随机变量 Ch2,p27均匀(Uniform)分布正态(Normal)分布Gamma分布Beta分布 分布指数(Exponential)分布,常见分布族,每个分布族pdf/pmf形式参数典型应用均值、方差,正态分布,亦称高斯分布,:位置(location)参数:尺度(scale)参数如图像处理中的多尺度分析,正态分布,最重要的分布之一在实际遇到的许多随机现象都服从或近似服从正态分布 如考试成

19、绩 中心极限定理:随机样本的均值近似服从正态分布 对任意IID样本,则,标准正态分布,当 时,正态分布称为标准正态分布,通常用Z表示服从标准正态分布的变量,记为。pdf和CDF分别记为标准化变换:若,则若,则正态分布的线性组合仍是正态分布:若 是独立的,则,常见多元分布,多元二项分布多元正态分布,多元二项分布,二项分布的多元变量版本 其中例:从箱子中共k中颜色的球,为抽取到颜色j的概率,共抽取n次,令 为颜色j出现的次数,则,多元二项分布,边缘分布:若,其中 且,则 的边缘分布为,多元正态分布,令,其中 且互相独立则Z的协方差矩阵为单位矩阵I,记为。,多元正态分布,更一般地,其中 表示矩阵的行

20、列式,为均值向量,协方差矩阵 为一个对称的正定矩阵,多元正态分布,多元正态分布有如下性质:1、若 且,则2、若,则3、若,a为与X相同长度的向量,则,随机向量的变换,令集合集合且A、B存在一一映射时,可利用Jacobian方法计算定义反变换,变换的Jacobian为(U,V)的联合分布为,思考题:求两个正态分布的和与乘积的分布,第三章:期望,上节课内容随机变量及其分布随机变量变换的分布常见分布族多元随机向量的分布:联合分布、边缘分布、条件分布本节课内容常用统计量:期望、方差、矩、中值、分位数IID样本、样本均值、样本方差,期望,期望/均值:随机变量的平均值概率加权平均,期望,期望是随机变量的一

21、个很好单值概述:随机变量典型的值或期望值大数定律(Chp5):当有大量独立同分布(Independed Identical Distribution,IID)样本 时,期望 可视为样本均值 当,我们说 是良好定义的(well defined);否则我们说期望不存在。,期望,最小距离 假设我们用L2距离度量一个随机变量X与一个常数b的距离,即。b离X越近,这个量就越小。因此我们可以确定b的值,使得 最小,b可认为是X的一个很好预测。问题:如果采用L1作为距离度量呢?,注意:是常数,随机变量变换的期望,1.2.注意:当 时,,随机变量变换的期望,例1:,则概率是一个特殊的期望:概率 为 的期望例3

22、.7:,则也可以先求,然后,随机向量变换的期望,随机向量变换的期望,令例3.9:设(X,Y)是单位正方形区域上的联合均匀分布,则,期望的性质,线性运算:加法规则:乘法规则:,期望的性质,不好计算。利用加法规则:令 则,众数(mode),众数:设随机变量X有密度,且存在 满足,则称 为X的众数。随机变量出现次数最多的位置期望、中位数和众数都称为位置参数。当随机变量的分布为高斯分布时,三者相等,方差,方差:刻画随机变量围绕均值的散布程度方差越大,X变化越大;方差越小,X与 越接近方差:二阶中心矩,方差的性质,注意:期望的加法规则无需独立条件 不独立随机变量和的方差计算需考虑变量之间的协方差,方差,

23、此时为确定性事件,故没有变化,方差为0,样本均值和方差,令 为IID,样本均值定义为计算均值时忽略了概率?样本方差定义为,样本均值和方差,和 分别为 和 的很好估计(无偏估计),协方差(covariance)/相关系数,协方差/相关系数:刻画两个随机变量之间关系强弱,协方差(covariance)/相关系数,X、Y独立,则X、Y 不相关:但反过来不成立!,协方差的性质,对任意两个随机变量X和Y,有当X、Y独立时:推广到多个随机变量:,方差-协方差矩阵,令随机向量 的形式为:则 的方差协方差矩阵 为当个成分变量独立时,协方差矩阵是什么样子呢?,相关(correlation),相关:度量两个变量之

24、间的线性相关程度若 当 时,当 时,变量之间不线性相关独立意味着不相关但反过来不成立!非线性相关,但可能高阶相关,条件期望,给定变量Y时,在 X上的概率分布对Y的每个可能取值,对X都定义有一个概率分布也能求期望,称为条件期望,条件期望,:数字:y的函数。在知道y的值之前,不知道:随机变量,当Y=y时,的值:随机变量,条件期望,例3.23:假定对 采样,在给定x后,在对 采样 直观地,期望实事上,对,有得到期望因而注意:是随机变量,当 时,其值为思考题:当X与Y独立时,的值?,条件期望,3.24 定理:对随机变量X和Y,假设其期望存在,则更一般地,对任意函数证明:利用条件期望的定义和,与Y有关的

25、随机变量,条件期望,3.25例:考察3.23例:怎样计算?一种方法是计算联合密度,然后计算另一种更简单的方法是分两步计算计算 计算,条件方差,3.26 定义:条件方差定义为其中定理3.27:对随机变量X和Y,,层次模型,例:在一个分布族中,分布族由一个/一些参数决定,如,这些参数 通常又是一个随机变量(贝叶斯学派的观点,参数也是随机变量),则最终的分布为一个层次模型,称为混合分布(mixture distribution)渐增式地定义一个复杂的模型:通过条件分布与边缘分布希望知道,至少是其期望和均值(条件期望和方差),层次模型,例:假设昆虫会产很多数量的蛋,蛋的数量为一个随机变量,用 表示;另

26、外假设每个蛋的是否存活是独立的,存活的概率为p,为Bernoulli分布,用X表示存活的数量,则,层次模型,期望:亦可通过条件期望计算:方差:亦可通过条件期望计算:,矩,r阶矩:1阶矩r阶中心矩:2阶中心矩:方差3阶中心矩:偏度4阶中心矩:峰度,矩母函数(Moment Generating Functions),矩母函数:用于计算矩、随机变量和的分布和定理证明3.29 定义:X的矩母函数(MGF),或Laplace变换定义为其中t在实数上变化。若MGF是有定义的,可以证明可以交换微分操作和求期望操作,所以有:取k阶导数,可以得到,方便计算分布的矩,矩母函数,3.10 例:令,对任意,有当 时,上述积分是发散的。所以,矩母函数的性质,3.31 引理:MGF的性质 若,则 若 独立,且,则3.32 例:所以,矩母函数的性质,3.33 定理:令X、Y为随机变量,如果对在0附件的一个开区间内所有的t,有,则。3.23 例:令且 独立,则为分布 的MGF,即,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号