《多元正态分布 》PPT课件.ppt

上传人:小飞机 文档编号:5488922 上传时间:2023-07-12 格式:PPT 页数:76 大小:1.27MB
返回 下载 相关 举报
《多元正态分布 》PPT课件.ppt_第1页
第1页 / 共76页
《多元正态分布 》PPT课件.ppt_第2页
第2页 / 共76页
《多元正态分布 》PPT课件.ppt_第3页
第3页 / 共76页
《多元正态分布 》PPT课件.ppt_第4页
第4页 / 共76页
《多元正态分布 》PPT课件.ppt_第5页
第5页 / 共76页
点击查看更多>>
资源描述

《《多元正态分布 》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《多元正态分布 》PPT课件.ppt(76页珍藏版)》请在三一办公上搜索。

1、第一章 多元正态分布,目录 上页 下页 返回 结束,1.1 多元分布的基本概念,1.2 统计距离和马氏距离,1.3 多元正态分布,1.4 均值向量和协方差阵的估计,1.5 常用分布及抽样分布,第一章 多元正态分布,一元正态分布在统计学的理论和实际应用中都有着重要的地位。同样,在多变量统计学中,多元正态分布也占有相当重要的位置。原因是:许多随机向量确实遵从正态分布,或近似遵从正态分布;对于多元正态分布,已有一整套统计推断方法,并且得到了许多完整的结果。,目录 上页 下页 返回 结束,第一章 多元正态分布,多元正态分布是最常用的一种多元概率分布。除此之外,还有多元对数正态分布,多项式分布,多元超几

2、何分布,多元 分布、多元 分布、多元指数分布等。本章从多维变量及多元分布的基本概念开始,着重介绍多元正态分布的定义及一些重要性质。,目录 上页 下页 返回 结束,1.1多元分布的基本概念,目录 上页 下页 返回 结束,1.1.1 随机向量,1.1.2 分布函数与密度函数,1.1.3 多元变量的独立性,1.1.4 随机向量的数字特征,2023/7/12,中国人民大学六西格玛质量管理研究中心,5,1.1.1 随机向量,表示对同一个体观测的 个变量。若观测了 个个体,则可得到如下表1-1的数据,称每一个个体的 个变量为一个样品,而全体 个样品形成一个样本。,假定所讨论的是多个变量的总体,所研究的数据

3、是同时观测 个指标(即变量),又进行了 次观测得到的,把这 个指标表示为 常用向量,目录 上页 下页 返回 结束,横看表1-1,记,它表示第 个样品的观测值。竖看表1-1,第 列的元素 表示对 第个变量 的n次观测数值。下面为表1-1,目录 上页 下页 返回 结束,1.1.1 随机向量,2023/7/12,中国人民大学六西格玛质量管理研究中心,7,因此,样本资料矩阵可用矩阵语言表示为:,定义1.1 设 为 个随机变量,由它们组成的向量 称为随机向量。,目录 上页 下页 返回 结束,1.1.1 随机向量,若无特别说明,本书所称向量均指列向量,2023/7/12,中国人民大学六西格玛质量管理研究中

4、心,8,定义1.2 设 是一随机向量,它的多元分布函数是,式中,并记成。,1.1.2 分布函数与密度函数,描述随机变量的最基本工具是分布函数,类似地描述随机向量的最基本工具还是分布函数。,目录 上页 下页 返回 结束,多元分布函数的有关性质此处从略。,2023/7/12,中国人民大学六西格玛质量管理研究中心,9,1.1.2 分布函数与密度函数,目录 上页 下页 返回 结束,定义1.3:设=,若存在一个非负的函数,使得,对一切 成立,则称(或)有分布密度 并称 为连续型随机向量。,一个 维变量的函数 能作为 中某个随机向量的分布密度,当且仅当,2023/7/12,中国人民大学六西格玛质量管理研究

5、中心,10,1.1.3 多元变量的独立性,目录 上页 下页 返回 结束,注意:在上述定义中,和 的维数一般是不同的。,若 有密度,用 分别表示 和 的分布密度,则 和 独立当且仅当(1.5),2023/7/12,中国人民大学六西格玛质量管理研究中心,11,1.1.4 随机向量的数字特征,是一个 维向量,称为均值向量.,目录 上页 下页 返回 结束,当 为常数矩阵时,由定义可立即推出如下性质:,1、随机向量 的均值 设 有 个分量。若 存在,定义随机向量 的均值为,2023/7/12,中国人民大学六西格玛质量管理研究中心,12,1.1.4 随机向量的数字特征,目录 上页 下页 返回 结束,2、随

6、机向量 自协方差阵,称它为 维随机向量 的协方差阵,简称为 的协方差阵。称 为 的广义方差,它是协差阵的行列式之值。,目录 上页 下页 返回 结束,1.1.4 随机向量的数字特征,3、随机向量X 和Y 的协差阵,设 分别为 维和 维随机向量,它们之间的协方差阵定义为一个 矩阵,其元素是,即,当A、B为常数矩阵时,由定义可推出协差阵有如下性质:,目录 上页 下页 返回 结束,1.1.4 随机向量的数字特征,(3)设X为 维随机向量,期望和协方差存在记 则,对于任何随机向量 来说,其协差阵都是对称阵,同时总是非负定(也称半正定)的。大多数情形下是正定的。,目录 上页 下页 返回 结束,1.1.4

7、随机向量的数字特征,4、随机向量X 的相关阵 若随机向量 的协差阵存在,且每个分量的方差大于零,则X的相关阵定义为:,也称为分量 与 之间的(线性)相关系数。,在数据处理时,为了克服由于指标的量纲不同对统计分析结果带来的影响,往往在使用某种统计分析方法之前,常需将每个指标“标准化”,即做如下变换,目录 上页 下页 返回 结束,1.1.4 随机向量的数字特征,中国人民大学六西格玛质量管理研究中心,随机向量数字特征的例子,中国人民大学六西格玛质量管理研究中心,例1-1,例1-1 焊接技术培训班有10名学生:基础焊接技术(BWT),焊接技术提高(AWT)和焊接车间实践(PWW)的成绩如表1-1所示(

8、数据文件MV_焊接成绩.BTW)。,中国人民大学六西格玛质量管理研究中心,例1-1,请注意:样本资料阵在形式上与在MINITAB软件中的工作表是完全一致的,工作表的第i行表示第i个样品,工作表的第j列表示对第j个变量的观测值,变量名称常列在表头,中国人民大学六西格玛质量管理研究中心,样本均值向量的计算,中国人民大学六西格玛质量管理研究中心,样本协方差阵(也称为样本方差阵)的计算,中国人民大学六西格玛质量管理研究中心,样本协方差阵(也称为样本方差阵)的计算,由于样本协方差阵是对称的,会话区窗口结果中只显示了协方差阵的下三角部分,所以整个样本协方差阵全部写出则应是:如果采用存储功能,则存储的样本协

9、方差阵就是整个方阵而不是三角阵,这个矩阵对角线上的3个数74.6222、70.2222、34.9,分别是基础焊接技术(BWT),焊接技术提高(AWT)和焊接车间实践(PWW)三门课成绩的样本方差。样本离差阵等于样本协方差阵乘以n1,所以例1-1样本离差阵就是,中国人民大学六西格玛质量管理研究中心,样本相关阵R计算:,中国人民大学六西格玛质量管理研究中心,样本相关阵R计算:,由于样本相关阵是对称的,对角线上全是1,会话区窗口结果中只显示了扣除对角线后的下三角部分,所以整个样本相关阵全部写出则应是:,如果采用存储功能,则存储的样本相关阵就是方阵而不是三角阵。,1.2 统计距离和马氏距离,目录 上页

10、 下页 返回 结束,欧氏距离,马氏距离,1.2 统计距离和马氏距离,欧氏距离,在多指标统计分析中,距离的概念十分重要,样品间的不少特征都可用距离去描述。大部分多元方法是建立在简单的距离概念基础上的。即平时人们熟悉的欧氏距离,或称直线距离.如几何平面上的点p=(x1,x2)到原点O=(0,0)的欧氏距离,依勾股定理有,目录 上页 下页 返回 结束,1.2 统计距离和马氏距离,但就大部分统计问题而言,欧氏距离是不能令人满意的。这里因为,每个坐标对欧氏距离的贡献是同等的。当坐标轴表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的办法是对坐标加权,使得变化较大的坐标比变化小的坐标有较小

11、的权系数,这就产生了各种距离。欧氏距离还有一个缺点,这就是当各个分量为不同性质的量时,“距离”的大小竟然与指标的单位有关。,目录 上页 下页 返回 结束,1.2 统计距离和马氏距离,目录 上页 下页 返回 结束,例如,横轴 代表重量(以kg为单位),纵轴 代表长度(以cm为单位)。有四个点A、B、C、D见图1.1,它们的坐标如图1.1所示,2023/7/12,中国人民大学六西格玛质量管理研究中心,29,1.2 统计距离和马氏距离,目录 上页 下页 返回 结束,这时,显然AB比CD要长。,现在,如果 用mm作单位,单位保持不变,此时A坐标为(0,50),C坐标为(0,100),则,结果CD反而比

12、AB长!这显然是不够合理的。,1.2 统计距离和马氏距离,目录 上页 下页 返回 结束,因此,有必要建立一种距离,这种距离要能够体现各个变量在变差大小上的不同,以及有时存在着的相关性,还要求距离与各变量所用的单位无关。看来我们选择的距离要依赖于样本方差和协方差。因此,采用“统计距离”这个术语,以区别通常习惯用的欧氏距离。最常用的一种统计距离是印度统计学家马哈拉诺比斯(Mahalanobis)于1936年引入的距离,称为“马氏距离”。,1.2 统计距离和马氏距离,目录 上页 下页 返回 结束,下面先用一个一维的例子说明欧氏距离与马氏距离在概率上的差异。,设有两个一维正态总体。若有一个样品,其值在

13、A处,A点距离哪个总体近些呢?由图1-2,图1-2,2023/7/12,中国人民大学六西格玛质量管理研究中心,32,1.2 统计距离和马氏距离,目录 上页 下页 返回 结束,由图1-2可看出,从绝对长度来看,A点距左面总体G1近些,即A点到 比A点到 要“近一些”(这里用的是欧氏距离,比较的是A点坐标与 到 值之差的绝对值),但从概率观点来看,A点在 右侧约4 处,A点在 的左侧约3 处,若以标准差的观点来衡量,A点离 比A点离 要“近一些”。显然,后者是从概率角度上来考虑的,因而更为合理些,它是用坐标差平方除以方差(或说乘以方差的倒数),从而化为无量纲数,推广到多维就要乘以协方差阵的逆矩阵,

14、这就是马氏距离的概念,以后将会看到,这一距离在多元分析中起着十分重要的作用。,1.2 统计距离和马氏距离,马氏距离,设X、Y从均值向量为,协方差阵为的总体G中抽取的两个样品,定义X、Y两点之间的马氏距离为,目录 上页 下页 返回 结束,1.2 统计距离和马氏距离,设 表示一个点集,表示距离,它 是到 的函数,可以证明,马氏距离符合如下距离的四条基本公理:,(2)当且仅当;,(3),(4),目录 上页 下页 返回 结束,1.3 多元正态分布,多元正态分布是一元正态分布的推广。迄今为止,多元分析的主要理论都是建立在多元正态总体基础上的,多元正态分布是多元分析的基础。另一方面,许多实际问题的分布常是

15、多元正态分布或近似正态分布,或虽本身不是正态分布,但它的样本均值近似于多元正态分布。本节将介绍多元正态分布的定义,并简要给出它的基本性质。,目录 上页 下页 返回 结束,1.3 多元正态分布,目录 上页 下页 返回 结束,2023/7/12,中国人民大学六西格玛质量管理研究中心,37,1.3.1 多元正态分布的定义,|为协差阵的行列式。,目录 上页 下页 返回 结束,定义1.5:若 元随机向量 的概率密度函数为:,则称 遵从 元正态分布,也称X为 元正态变量。记为,定理1.1将正态分布的参数和赋于了明确的统计意义。有关这个定理的证明可参见文献3。,多元正态分布不止定义1.5一种形式,更广泛地可

16、采用特征函数来定义,也可用一切线性组合均为正态的性质来定义等,有关这些定义的方式参见文献3。,目录 上页 下页 返回 结束,1.3.1 多元正态分布的定义,定理1.1:设 则,1.3.2 多元正态分布的性质,目录 上页 下页 返回 结束,1、如果正态随机向量 的协方差阵是对角阵,则X的各分量是相互独立的随机变量。证明参见文献4,p.33。,容易验证,但 显然不是正态分布。,2、多元正态分布随机向量X的任何一个分量子集的分布(称为X的边缘分布)仍然遵从正态分布。而反之,若一个随机向量的任何边缘分布均为正态,并不能导出它是多元正态分布。例如,设 有分布密度,2023/7/12,中国人民大学六西格玛

17、质量管理研究中心,40,1.3.2 多元正态分布的性质,目录 上页 下页 返回 结束,3、多元正态向量 的任意线性变换仍然遵从多元正态分布。即设,而 维随机向量,其中 是 阶的常数矩阵,是 维的常向量。则 维随机向量 也是正态的,且。即 遵从 元正态分布,其均值向量为,协差阵为。,4、若,则 若为定值,随着 的变化其轨迹为一椭球面,是 的密度函数的等值面.若 给定,则 为 到 的马氏距离。,1.3.3 条件分布和独立性,目录 上页 下页 返回 结束,我们希望求给定 的条件分布,即 的分布。下一个定理指出:正态分布的条件分布仍为正态分布。,设 p2,将X、和剖分如下:,证明参见文献3。,目录 上

18、页 下页 返回 结束,1.3.3 条件分布和独立性,定理1.2:设,0,则,(1.28),目录 上页 下页 返回 结束,1.3.3 条件分布和独立性,定理1.3:设,0,将X,剖分如下:,则 有如下的条件均值和条件协差阵的递推公式:,(1.29),(1.30),证明参见3,目录 上页 下页 返回 结束,1.3.3 条件分布和独立性,服装标准例子,定理1.2和定理1.3在20世纪70年代中期为国家标准部门制定服装标准时有成功的应用,见参考文献3。在制定服装标准时需抽样进行人体测量,现从某年龄段女子测量取出部分结果如下:,X1:身高,X2:胸围,X3:腰围,X4:上体长,X5:臀围,已知它们遵从N

19、5(,),其中,再利用(1.30)式得,这说明,若已知一个人的上体的长和臀围,则身高、胸围和腰围的条件方差比原来的方差大大缩小。,此时我们可看到,在定理1.2中,我们给出了对X、和作形如(1.25)式剖分时条件协差阵 的表达式及其与非条件协差阵的关系,令 表示 的元素,则可以定义偏相关系数的概念如下:,定义1.6:当 给定时,与 的偏相关系数为:,目录 上页 下页 返回 结束,1.3.3 条件分布和独立性,偏相关系数,以x1表示某种商品的销售量,x2表示消费者人均可支配收入,x3表示商品价格。从经验上看,销售量x1与消费者人均可支配收入x2之间应该有正相关,简单相关系数r12应该是正的。但是如

20、果你计算出的r12是个负数也不要感到惊讶,这是因为还有其它没有被固定的变量在发挥影响,例如商品价格x3在这期间大幅提高了。反映固定x3后x1与x2相关程度的偏相关系数r12;3会是个正数。,1.3.3 条件分布和独立性,在上面制定服装标准的例子中,给定X4和X5的偏相关系数为:,目录 上页 下页 返回 结束,1.3.3 条件分布和独立性,定理1.4:设 将X、按同样方式剖分为,其中,,证明参见文献3,1.4 均值向量和协方差阵的估计,上节已经给出了多元正态分布的定义和有关的性质,在实际问题中,通常可以假定被研究的对象是多元正态分布,但分布中的参数和是未知的,一般的做法是通过样本来估计。,目录

21、上页 下页 返回 结束,1.4 均值向量和协方差阵的估计,均值向量的估计,在一般情况下,如果样本资料阵为:,目录 上页 下页 返回 结束,1.4 均值向量和协方差阵的估计,即均值向量的估计量,就是样本均值向量.这可由极大似然法推导出来。推导过程参见文献3。,目录 上页 下页 返回 结束,设样品 相互独立,同遵从于P元正态分布,而且,0,则总体参数均值的估计量是,1.4 均值向量和协方差阵的估计,协方差阵的估计,总体参数协差阵的极大似然估计是,目录 上页 下页 返回 结束,2023/7/12,中国人民大学六西格玛质量管理研究中心,59,1.4 均值向量和协方差阵的估计,目录 上页 下页 返回 结

22、束,1.5常用分布及抽样分布,多元统计研究的是多指标问题,为了了解总体的特征,通过对总体抽样得到代表总体的样本,但因为信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量,如前面介绍的样本均值向量、样本离差阵 等都是统计量.统计量的分布称为抽样分布.,在数理统计中常用的抽样分布有 分布、分布和 分布.在多元统计中,与之对应的分布分别为Wishart分布、分布和Wilks分布.,目录 上页 下页 返回 结束,1.5常用分布及抽样分布,1.5.2 分布与 分布,1.5.1 分布与Wishart分布,1.5.3 中心分布与Wilks分布,目录

23、 上页 下页 返回 结束,分布有两个重要的性质:,1.5.1 分布与Wishart分布,在数理统计中,若(),且相互独立,则 所服从的分布为自由度为 的 分布(chi squared distribution),记为.,目录 上页 下页 返回 结束,2.设(),且相互独立,为 个 阶对称阵,且(阶单位阵),记,则 为相互独立的 分布的充要条件为.此时,.,这个性质称为Cochran定理,在方差分析和回归分析中起着重要作用.,目录 上页 下页 返回 结束,1.5.1 分布与Wishart分布,所服从的分布称为自由度为 的 维非中心Wishart分布,记为,目录 上页 下页 返回 结束,1.5.1

24、 分布与Wishart分布,由Wishart分布的定义知,当 时,退化为,此时中心Wishart分布就退化为,由此可以看出,Wishart分布实际上是 分布在多维正态情形下的推广.,下面不加证明的给出Wishart分布的5条重要性质:,相互独立.,和,(1),(2),目录 上页 下页 返回 结束,1.5.1 分布与Wishart分布,目录 上页 下页 返回 结束,1.5.1 分布与Wishart分布,2.若,且相互独立,则,特别的,设 和 分别为 和 的第 个对角元,则:,5.若,为任一 元非零常向量,比值,目录 上页 下页 返回 结束,1.5.1 分布与Wishart分布,1.5.2 分布与

25、 分布,在数理统计中,若,且 与 相互独立,则称 服从自由度为 的 分布,又称为学生分布(student distribution),记为.如果将 平方,即,则,即 分布的平方服从第一自由度为1第二自由度为 的中心分布.,目录 上页 下页 返回 结束,所服从的分布称为第一自由度为 第二自由度为 的中心 分布,记为,目录 上页 下页 返回 结束,1.5.2 分布与 分布,1.5.3 中心分布与Wilks分布,在数理统计中,若,且与相互独立,则称 所服从的分布为第一自由度为 第二自由度为 的中心 分布.记为.分布本质上是从正态总体 随机抽取的两个样本方差的比.,目录 上页 下页 返回 结束,所服从

26、的分布称为维数为,第一自由度为 第二自由度为 的Wilks 分布,记为,(1.34),定义1.9 设,且 与 相互独立,则称随机变量,目录 上页 下页 返回 结束,1.5.3 中心分布与Wilks分布,目录 上页 下页 返回 结束,1.5.3 中心分布与Wilks分布,由于分布在多元统计中的重要性,关于它的近似分布和精确分布不断有学者进行研究,当p和 中的一个比较小时,分布可化为F分布,表1-2列举了常见的情况.,表1-2,目录 上页 下页 返回 结束,1.5.3 中心F分布与Wilks分布,当 不属于表1-2情况时,Bartlett指出用 分布来近似表示,即 近似服从.,Rao 后来又研究用F分布来近似,即,目录 上页 下页 返回 结束,1.5.3 中心分布与Wilks分布,近似服从,其中,不一定是整数,用与它最近的整数来作为F分布的第二自由度.,目录 上页 下页 返回 结束,1.5.3 中心分布与Wilks分布,若,有.该结论说明,在使用统计量时也可考虑 的情形,有关统计量的其他性质参见文献1.,目录 上页 下页 返回 结束,The end!Thanks!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号