《多元统计应用分析课件.ppt》由会员分享,可在线阅读,更多相关《多元统计应用分析课件.ppt(145页珍藏版)》请在三一办公上搜索。
1、,多元统计分析研究的对象,一元统计分析是研究一个随机变量统计规律性的学科。多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科。它的内容既包括一元统计学中某些方法的直接推广,也包括多个随机变量特有的一些问题。多元统计分析是一类范围很广的理论和方法。,多元统计分析研究的内容和方法,简化数据结构(降维问题),按观测点分类或按变量分组 分类比较是一切科学比较的基础和开端 对观测点分类:银行发放贷款 对各企业财务指标、信用状况进行分析 对变量分组:股票市场是宏观经济的晴雨表 经济指标与股票市场各种指标间的群组关系,多元统计分析研究的内容和方法,聚类分析,判别分析,Cluste
2、r Analysis,Discriminant Analysis,多元统计分析研究的内容和方法,变量间的依存关系、相互关系寻找变量间的依存关系是一切科学研究的主要内容寻找一般的规律:预测、控制,多元数据的统计推断关于参数估计和假设检验问题。特别是多元正态分布的均值向量及协方差阵的估计和假设检验等问题。多元统计分析的理论基础 包括多维随机向量及多维正态随机向量,及由此定义的各种多元统计量,推导其分布和性质,研究它们的抽样分布理论。,多元统计分析研究的内容和方法,多元统计分析的应用,多元统计分析是解决实际问题的有效的数据处理法。它已广泛地应用于自然科学、社会科学的各个方面。如:教育学、医学、气象学
3、、环境科学、地质学、考古学、服装工业服装的定形分类问题、经济学、农业、社会科学、文学、体育科学、军事科学、心理学、生物学、生态学、火警预报、地震预报、保险科学等领域。,内容提要,聚类分析,教学内容结构,多元正态参数估计、检验,One,Two,Three,回归分析,聚类分析,判别分析,主成分分析,因子分析,多元统计分析,典型相关分析,参考书目,应用多元统计分析(高惠旋 编著)北京大学出版社Applied Multivariate Statistical Analysis Richard A.Johnson&Dean W.Wichern Prentice Hall.2001,(4th ed).多元
4、统计分析引论(张尧庭 方开泰 编著)科学出版社,第一章多元正态分布与参数估计,多元正态分布与参数估计,1 随机向量及其分布,P维随机向量 联合分布函数 联合密度函数,特征函数,一元随机变量 的特征函数:二元随机向量 的特征函数:P元随机向量 的特征函数:,求1.边缘密度.2.与 是否相互独立?3.的特征函数,例1,条件分布与独立性,两随机向量间的条件分布,条件分布与独立性,两随机向量独立的充分必要条件 与 相互独立 相互独立 不成立,随机向量的数字特征,随机向量的数学期望随机向量X的方差阵或协方差阵,标准差矩阵:,随机向量的数字特征,两随机向量间的协方差阵随机向量X的相关系数阵,随机向量的数字
5、特征的性质,随机向量X与Y不相关:若X,Y 相互独立,则;反之不一定 成立。均值向量和协方差阵的性质:,对称、非负定矩阵,随机向量的数字特征的性质,2 多元正态分布的定义与基本性质,一元正态分布,多元正态分布的定义与基本性质,定义1 p 维标准正态分布 设 独立同分布于,则称随机向量 服从p 维正态分布,记,特征函数:,密度函数:,多元正态分布的定义与基本性质,定义2 p 维一般正态分布 设,A为 实数矩阵,为 p 维实数向量,则 是 p 维正态分布,记为:其中 为非负定阵。,多元正态分布的定义与基本性质,性质1 若 服从,则(1),(2),定义3 若p 维随机向量X 的特征函数为 则称X 服
6、从p 元正态分布,记为,多元正态分布的定义与基本性质,性质2:若 服从(1)令,为 实数矩阵,为 维实数向量,则 服从(2)服从,c 为实数.性质3:服从 为一元正态随机变量.定义4:设 为p 维随机向量,若,为一元正态随机变量,则称 X 服从p 元正态分布,记为,用于验证,用于验证,多元正态分布的定义与基本性质,定义5:若p 维随机向量 的联合密度函数为 其中,则称 X 服从p 元正态分布,记为,性质4:若 为正定矩阵,则 服从 具有密度函数,多元正态分布的四个等价定义,其中 为一元正态随机变量 特征函数 密度函数,多用于验证,多用于证明,二元正态分布的密度函数,二元正态分布的等高线(面)是
7、一族中心在 的椭圆.,p元正态分布密度函数的等高面,p元正态分布密度函数的等高面为椭球面,即在距离 的平方为常数的表面上多元正态密度是常数,这些密度曲线称为轮廓线。常数概率密度轮廓线=满足 的所有x=中心在 的椭球的表面。常数密度的每个椭球面的中心在u且轴在 的特征向量的方向上,而且其长度是与 的特征值的平方根的倒数成比例的。,(11=1,22=1,12=0),二元正态分布曲面,二元正态分布曲面(11=1,22=1,12=0),二元正态分布曲面(11=2,22=4,12=0.75),二元正态分布曲面(11=2,22=4,12=0.75),二元正态分布曲面(11=2,22=4,12=0.75),
8、二元正态分布曲面剖面(11=1,22=1/2,12=0.75),3 条件分布与独立性,定理1 若 服从,(1)服从,服从;(2)与 相互独立.(不相关),定理2 若 相互独立,且 则.,条件分布与独立性,推论3:若 不服从正态分布,则 不服从正 态分布.,条件分布与独立性,p元正态分布的性质,每一个变量均服从正态分布。变量的线性组合服从正态分布。p 元正态分布中的任意 k(0km)个变量服 从 k 元正态分布。p元正态分布的条件分布仍服从正态分布。协方差为0的变量间相互独立。,5 多元正态分布的参数估计,多元样本及数字特征多元样本的概念P维随机样本 P维总体 的一个容量为n的样本:,的样本,的
9、样本,样本数据阵(样本资料阵),样本均值,其中,样本离差阵,样本离差阵,样本方差阵,样本方差阵,样本相关系数阵,与 的样本相关系数,多元正态均值向量及协方差阵的极大似然估计,定理1 设 是 p 元正态总体 的随机样本,则 为 的极大似然估计,即,样本 的似然函数,多元正态均值向量及协方差阵的极大似然估计,定理2 当 时,的极大似然估计是,极大似然估计量的性质,极大似然估计量的性质,极大似然估计量的性质,极大似然估计量的性质,极大似然估计量的性质,极大似然估计量的性质,第二章多元正态总体参数的假设检验,多元正态总体参数的假设检验,1 几个重要统计量的分布,分量独立的 n 维随机向量 X 的二次型
10、,定义2 非中心 分布与矩阵表达,设,且,则随即变,量 服从自由度为 n,非中心参数为的卡方分布,并记为 或,推广:若 则若,则,其中,分量独立的 n 维随机向量 X 的二次型,分量独立的 n 维随机向量 X 的二次型,分量独立的 n 维随机向量 X 的二次型,分量独立的 n 维随机向量 X 的二次型,定理2 设 则(A为对称幂等阵)其中,对称幂等阵的性质:1.I-A是对称幂等的;2.A的特征值是1或0;3.r(A)=tr(A),证明要点:若A是对称幂等的,则存在正交矩阵P,使 令,若,则存在正交矩阵P,使,分量独立的 n 维随机向量 X 的二次型,定理3 设 则定理4 设 则,分量独立的 n
11、 维随机向量 X 的二次型,分量独立的 n 维随机向量 X 的二次型,定理6 设(1)(2)(3)非负定 则 且与 相互独立.,一般 p 维正态随机向量的二次型,定理1 若 则(1),其中(2),用于构造检验统计量并检验异常点,定理2 若 则,定理3 若 则,非中心 t 分布和非中心 F 分布,当 时,F服从自由度为m,n中心F分布记为:,定义3 非中心 t 分布,设 与 相互独立,令则随机变量T 服从自由度为n,非中心参数为 非中心t 分布,并记为:,当 时,T服从自由度为n中心t 分布记为:,定义4 非中心 F 分布,设 与 相互独立,令 则随机变量F 服从自由度为m,n,非中心参数为 非
12、中心F分布,并记为:,非中心 分布、非中心t分布和非中心F分布,利用非中心 分布、非中心t分布和非中心F分布可以计算一元统计检验中犯第二类错误的概率。,例 未知,检验 检验统计量为,犯第一类错误的概率为犯第二类错误的概率为,威沙特(Wishart)分布,定义1 随机矩阵的分布定义2(中心Wishart分布)设服从且相互独立,则称随机矩阵服从中心Wishart 分布,并记为,其中定义3(非中心Wishart分布)设服从 且相互独立,则称随机矩阵 服从非中心Wishart 分布,并记为 其中 为非中心参数,,威沙特(Wishart)分布性质,结论1 分布是Wishart分布的特例 结论2 性质1
13、若 且相互独立,则性质2 若(1)且 独立同分布于(2)是秩为 r 的实对称阵,则,威沙特(Wishart)分布性质,性质3 设p阶随机阵 是常数阵,则 特例(1)(2)设 则性质4 设 相互独立,其中 则(1)(2)当 时,,威沙特(Wishart)分布性质,服从正态分布,服从卡方分布,服从多元正态分布,服从Wishart分布,推广,服从,霍特林(Hotelling)T2分布,Hotelling 分布 定义1 设 且相互独立,则称 服从自由度为n的霍特林T2分布。若 则称 服从自由度为n的非中心霍特林T2分布。结论1 分布是t分布的推广 性质1 独立同分布于,则,分布与 分布之间的关系,性质
14、2 若 和 是 的样本均值和样本离差阵,记 则,霍特林(Hotelling)T2分布,性质4 若 和 是 的样本均值和样本离差阵,记 则 其中性质5 T2统计量的分布只与p,n有关,而与 无关.性质6 T2统计量对可逆变换保持不变.,性质3 若 和 是 的样本均值和样本离差阵,记 则,威尔克斯(Wilks)统计量及分布,威尔克斯 分布定义1 设 则称协方差阵的行列式 为X的广义方差.若 为p 元总体X 的随机样本,A为样本离差阵,则称 或 为样本广义方差.定义2 设 则称广义方差比为威尔克斯统计量或 统计量,其分布称为威尔克斯分布,记为,统计量与 或 F统计量的关系,结论1,统计量与 或 F统
15、计量的关系,结论2,结论3,结论4,结论5,一元正态总体参数的假设检验,设 来自总体 第一步:建立零假设 第二步:寻找检验统计量及其在 下的分布第三步:依据小概率原理建立检验准则 若 则拒绝零假设.,一元正态总体参数的假设检验,设 来自总体 第一步:建立零假设 第二步:寻找检验统计量及其在 下的分布第三步:依据小概率原理建立检验准则 由于,故若 则拒绝零假设.,不应含有未知数,单总体均值向量的检验及置信域,2.当 未知时,均值向量的检验,单总体均值向量的检验,检验统计量是:,且,p值的计算,p值通常由下面公式计算而得到:p=P|W|W0|=2 P W|W0|(拒绝域为两边对称的区域时)p=mi
16、nPW W0,PW W0(拒绝域为两边非对称区域时)p=PW W0(拒绝域为右边区域时)p=PW W0(拒绝域为左边区域时)只需根据SAS计算出的p值,就可以在指定的显著水平下,作出拒绝 或不能拒绝 原假设的决定.,似然比统计量,设p元总体的密度函数为 其中 是未知参数,且,是来自总体X的容量为n 的样本,检验样本的似然函数为 似然比统计量为,否定域,似然比统计量,定理1 当样本容量n 很大时,其中,多元总体均值向量的检验,两个正态总体均值向量的检验,例1.两组贫血患者的血红蛋白浓度(%,X1)及红细胞计数(万/mm3,X2),检验假设或,两个正态总体均值向量的检验,检验统计量,由样本值得,两
17、个正态总体均值向量的检验,p=0.0030.,两个正态总体均值向量的检验,两正态总体协方差阵不等时均值向量的检验,情形2 i.i.d于 i.i.d于 检验统计量及其分布(1)构造新样本:(2)构造统计量:,相互独立,两正态总体协方差阵不等时均值向量的检验,多个正态总体均值向量的检验多元方差分析,多元方差分析,Multivariate analysis of variance,MANOVA一元方差分析的基本思想:对方差的分解多元方差分析的基本思想:对方差-协方差阵的分解。,一元方差分析,k 个一元正态总体均值向量的检验,一元方差分析,平方和分解公式 SST=SSA+SSE,多元方差分析,设第i个
18、p元正态总体 的数据阵为,总离差阵T的分解,总离差阵T=组内离差阵A+组间离差阵B.,k 个p元正态总体均值向量的检验,零假设,检验统计量及其分布,否定域,例2.三组贫血患者的血红蛋白浓度(%,X1)及红细胞计数(万/mm3,X2),检验假设,设第i 组为2元正态总体 来自3个总体的样本容量检验:,结论2,结论4,k 个p元正态总体均值向量的检验,取检验统计量,例2.(续),三组的均向量和离差矩阵,三组的离差矩阵之和(组内变异)总离差矩阵组间离差矩阵,例2.(续),多元方差分析表,p=2,k=3,n=30:n1=n-k=27,n2=k-1=2;2n2=4,2(n1-1)=52.p=0.0011
19、61.,例2.(续),独立性检验(正态总体),独立性检验,正态性检验,p元正态分布的性质,每一个变量均服从正态分布。变量的线性组合服从正态分布。p 元正态分布中的任意 k(0km)个变量服从 k 元正态分布。p元正态分布的条件分布仍服从正态分布。协方差为0的变量间相互独立。正态随机向量的概率密度等高线为椭球。,一维边缘分布的正态性检验,把 p元正态性检验化为 p 个一元数据的正态性检验,常用的方法有以下几种:检验:用于连续型或离散型随机变量分布的拟合优度检验.Kolmogorov 检验:用于连续型分布的拟合优度检验.仅用于正态性检验的方法偏峰(Skewness)检验:在SAS中:关于均值对称的
20、数据其偏度为0;左侧更为分散的数据,其偏度为负,称为左偏;右侧更为分散的数据,其偏度为正,称为右偏。,一维边缘分布的正态性检验,峰度(Kortosos)检验:利用峰度研究数据分布的形状是以正态分布为标准(假定正态分布的方差与所研究分布的方差相等)比较两端极端数据的分布情况,若 近似于标准正态分布,则峰度接近于零;尾部较正态分布更分散,则峰度为正,称为轻尾,尾部较正态分布更集中,则峰度为负,称为厚尾.W(Wilks)检验和D检验.(0W1)W统计量是基于次序统计量线性组合平方的方差最佳估计与通常校正平方和估计之比.当样本来自正态总体时,由样本构造的W的值接近1.若,一维边缘分布的正态性检验,Q-
21、Q(Quantile-Quantile)图形检验法.P-P(Probability-Probability)图形检验法.QQ图是一种散点图。对应于正态分布的QQ图由点 构成,其横坐标为标准正态分布的分位数,纵坐标 x(i)(i=1,2,n)是将x1,xn从小到大排序后的数列,为总体i/n分位点的估计。若观测数据近似正态分布N(,2),则QQ图上这些点近似在直线y=x+附近。,(n2000时,采用D统计量,若 否定正态性假设.,(1)分布函数与分位数 设随机变量X的分布函数为,若 则称 是 的上侧 分位数或 的 下侧分位数.此时有:,F的 上侧分位数,F的 下侧分位数,Q-Q图形检验法,(2)样
22、本分布函数 设 为一组样本,将它们按大小序排列:,于是样本分布函数为:,(3)X 的样本分位数 将 按大小序排列:它的样本分布函数为:于是,的 下侧分位数分别是:,样本分位数,(4)X 的理论分位数 由 的 理论下侧分位数可以通过查标准正态分布表得到:若 X 确实服从,理论分位数,(5)Q-Q图,原则检验法:若 则,检验法.比较样本经验分布函数与原假设指定的分布函数间的差异来检验原假设。,等概椭圆检验法.(二元数据的正态性检验).统计量的Q-Q图(或P-P图)检验法.(p元数据的正态性检验).,正态性检验的SAS实现,不同地区居民家庭收入和支出情况,data bldk1(8个字符以内);Input num($)x1 x2 x3 x4 x5;(;)(label num=分行编号 x1=不良贷款(亿元);Cards;1 0.9 67.3 6.8 5 51.9;Run;,编写SAS数据文件,在Insight模块中绘制分布拟合图和QQ图,在Insight中打开数据集sryzc;选择主采单analyse distributions.,在Analyze中绘制分布拟合图和QQ图,在Analyze中打开数据集sryzc;选择主采单statistc descriptive distributions.,