哈尔滨工业大学 多元统计分析 数学建模必备 葛虹ppt课件.ppt

上传人:小飞机 文档编号:1894021 上传时间:2022-12-24 格式:PPT 页数:120 大小:1.39MB
返回 下载 相关 举报
哈尔滨工业大学 多元统计分析 数学建模必备 葛虹ppt课件.ppt_第1页
第1页 / 共120页
哈尔滨工业大学 多元统计分析 数学建模必备 葛虹ppt课件.ppt_第2页
第2页 / 共120页
哈尔滨工业大学 多元统计分析 数学建模必备 葛虹ppt课件.ppt_第3页
第3页 / 共120页
哈尔滨工业大学 多元统计分析 数学建模必备 葛虹ppt课件.ppt_第4页
第4页 / 共120页
哈尔滨工业大学 多元统计分析 数学建模必备 葛虹ppt课件.ppt_第5页
第5页 / 共120页
点击查看更多>>
资源描述

《哈尔滨工业大学 多元统计分析 数学建模必备 葛虹ppt课件.ppt》由会员分享,可在线阅读,更多相关《哈尔滨工业大学 多元统计分析 数学建模必备 葛虹ppt课件.ppt(120页珍藏版)》请在三一办公上搜索。

1、多 元 统 计 分 析,哈尔滨工业大学数学系 葛 虹,多元统计分析内容简介,第一章 多元统计的基本概念第二章 主成分分析第三章 聚类分析第四章 多元正态分布第五章 多元回归分析,第一章 多元统计的基本概念,第一节 随机向量 及其数字特征,随机向量极其分布,P维随机向量: 联合分布函数: 联合密度函数:,特征函数,一元随机变量 :二元随机向量 :P元随机向量例1,条件分布与独立性,两随机向量间的条件分布 的D.F: ; d.f ; c.f 的D.F: ; d.f ;c.f 的D.F: ; d.f ;c.f 给定 , 的条件密度函数:,两随机向量独立的充分必要条件 与 相互独立,随机向量的数字特征

2、,随机向量的数学期望随机向量的方差阵,两随机向量间的协方差阵随机向量的相关系数阵,随机向量的数字特征的计算性质,对称,非负定;,例2求:,第二节 随机向量的样本 及其数字特征,P维随机样本 P维随机向量 的一个容量为n的样本:,的样本,的样本,的样本,样本均值,样本离差阵与样本方差阵,样本离差阵,样本方差阵,样本相关系数阵,与 的样本相关系数,作 业 一,1 令 (1)求c;(2)求 ;(3)证明: ;(4) 是否相互独立?,2 设三个随机变量x,y,z的联合密度函数为:(1)求常数k;(2)x,y,z是否相互独立?(3)试求在给定y=1/2 ,z=1的条件下x的分布。,3 设随机向量 的协方

3、差阵为:(1)求相关系数阵;(2)令 , ,求 的协方差阵。,实验报告一,选择一组多维有意义的数据编写SAS数据文件利用SAS作单变量的置方图,计算基本统计特征(均值、方差或标准差)并由此分析单变量的基本分布情况利用SAS计算多维随机变量的样本协方差阵、样本相关系数阵并由此分析变量之间的相关性要求打印 SAS数据文件 置方图 计算结果 分析结果,第二章 主成分分析,第一节 为什么要进行主成分分析,消除自变量间的相关性与多维变量降维 满足(1) (2),第二节 数学模型与理论主成分,前提条件: 目标:寻找正交矩阵 使 (1) (2) 且结论: 是 的特征值; 的行向量分别为相应的特征向量;,理论

4、主成分的计算过程,求非负定阵 的特征值:求 所对应的单位特征向量:写出主成分:,第三节 样本主成分的计算过程,首先将原始数据标准化得到标准化数据(消除量纲影响);求标准化数据的样本协方差阵 (该矩阵是原样本数据的样本相关系数阵) ;求 的特征值 和所对应的单位特征向量:,写出p个主成分的表达式: 是样本均值, 是样本标准差,选择主成分的方法,贡献率:第i 个主成分的贡献率为累积贡献率:前m 个主成分的累积贡献率为选择法则: 保留m 个主成分,第四节 主成分的应用,利用第一主成分进行综合评价 若第一主成分满足:(1) 其中(2)第一主成分的贡献率 ,则 可以作为一个综合评价指标,利用第一、二个主

5、成分进行分类若第一、二个主成分的累积贡献率 ,则由第一、二个主成分在平面上的散点图,可以对样品进行分类。,实验二 主成分分析,选取一组有意义的P维数据利用SAS的“交互数据分析”对P维变量进行主成分分析,并选择主成分进行排序与分类。要求说明:1)主成分选择原理 2)所选择主成分的表达式 3)最后的排序与分类结果。,第三章 聚类分析,第一节 p维空间中的距离欧氏距离马氏距离B模距离 明氏距离,一点到总体的马氏距离,第二节 聚类方法简介,问题:将n个p维样本分成m个类系统聚类法与聚类步骤流程图动态聚类法与聚类步骤流程图,系统聚类法与聚类步骤流程图,初始分类:,若 与 距离最小,合并为一类,no,输

6、出分类结果,动态聚类法与聚类步骤流程图,寻找m个凝聚点:,若 则 ;得,计算各类的重心:,若 则 ;得,计算各类的重心:,重心改变,输出分类结果,yes,no,第三节 五种系统聚类(cluster)方法,最短距离法(method=single)最长距离法(method=complete)重心法(method=centroid),类平均法(method=average)离差平方和法(method=ward),可以证明:半偏,第四节 系统聚类在SAS中的实现,proc cluster data=city method=ward outtree=DD;Var x1-x8;id region;proc

7、 tree data=DD horizontal graphics;id region;title tree of cluster;run;,实验三 聚类分析,选取一组有实际意义的数据利用SAS的五种系统聚类方法将n个样本进行分类,要求:1)说明每一种方法的分类结果2)利用主成分分析说明哪一种分类结果更合理,第四章 多元正态分布,第一节 多元正态分布第二节 多元正态分布的函数-卡方分布第三节 多元正态分布的参数估计第四节 WISHART分布第五节 正态分布均值向量的假设检验,一元正态分布,一元正态分布,密度函数形式,特征函数形式,一般正态与标准正态之间的关系,多个正态变量的线性组合仍为正态变量

8、,第一节 多元正态分布,定义1 q维标准正态分布 设 独立同分布于 ,则称随机向量 服从q 维正态分布,记 密度函数: 特征函数:,定义2 p 维一般正态分布 设 ,B为 实数矩阵, 为 维实数向量,则 是 维随机正态分布,记为: 其中 为非负定阵。,定理1 若 服从 ,则 (1) , (2),定理2 若 服从 (1)令 , 为 , 为 则 服从 (利用特征函数证明) (2) 服从,定理3 若 服从 ,(1) 服从 , 服从 ;(2) 与 相互独立 (简化成 服从 , 服从 的情形,通过特征函数证明)推论:若 不服从正态分布,则 不服从正态分,用于验证,定理4 服从 为一元正态随机变量定理5

9、若 为正定矩阵,则 服从 具有密度函数(证明要点: , ),用于验证,多元正态分布的四个等价定义,其中 为一元正态随机变量 特征函数 密度函数,多用于验证,多用于证明,第二节 多元正态分布的函数-卡方分布,定义1 中心 分布与矩阵表达设 独立同分布于 ,则若记 ,且 则,定义2 非中心 分布与矩阵表达设 ,且 ,则 服从自由度为p,非中心参数为的卡方分布,并记为:,定理1 若 服从 ,且 正定,则 (1) 服从 ,其中 (2) 服从,用于构造检验统计量并检验异常点,定理2 设 服从 , 服从 且相互独立,则 服从 定理3 设 服从 , 为 阶实对称阵且 ,则 服从 其中(对称幂等阵的性质:1.

10、 I-A是对称幂等的;2.A的特征值是1或0;3. R(A)=tr(A),证明要点: 若A是对称幂等的,则存在正交矩阵Q 使 若 服从 A是非负定阵 存在一个矩阵 ,R(B)=r,且,定理4 (Cochran定理)已知 (1) 服从 (2) 为 阶实对称阵;且 (3) 则 服从 与 服从 且相互独立 (要点: ),定理5 设(1)(2) , (3) 非负定则 且与 相互独立,作业二(1),若 服从(1)求 的分布,其中:(2)X中有无相互独立的分量?(3) 的分布是什么?若 服从 ,A与B分别是 和 阶实矩阵,证明:AX与BX相互独立,一元正态样本及其性质,设 是来自 的一个样本样本均值是总体

11、均值的无偏估计,即 ;样本方差是总体方差的无偏估计,即 ;,与 分别是 和 的极大似然估计其中 与 相互独立,第三节 多元正态分布的参数估计,定理1 若 为正定矩阵且 ,则 为 的极大似然估计,即 定理2 当 时, 的极大似然估计是,定理3 与 分别是 和 的无偏估计,即定理4 若 和 分别是正态总体 的样本均值和样本离差阵,则 (1) 与 相互独立,(2) ; 与 同分布 其中 独立同分布于(3) 定理5 若 为正定矩阵,则 ,可作为检验统计量,?,第四节 WISHART分布,定义1 随机矩阵的分布定义2 (Wishart分布)设服从且相互独立,则称随机矩阵服从中心Wishart 分布,并记

12、为 结论 结论分布是Wishart分布的特例,WISHART分布的性质,性质1 若 , 且相互独立,则 性质2 若(1) 且 独立同分布于 (2) 是秩为r的实对称阵,则 ,性质3 (Cochran定理)若 (1) 且 独立同分布于 (2) 为 阶实对称阵;且 (3) 则 服从 与 服从 且相互独立,性质4 若 (1) (2) 为非奇异阵,则 ,一元正态总体参数的假设检验,设 来自总体 第一步:建立零假设 第二步:寻找检验统计量及其在 下的分布第三步:依据小概率原理建立检验准则 由于 ,故若 ,则拒绝零假设,不应含有未知数,设 来自总体 第一步:建立零假设 第二步:寻找检验统计量及其在 下的分

13、布第三步:依据小概率原理建立检验准则 若 则拒绝零假设,服从正态分布,服从卡方分布,服从多元正态分布,服从Wishart分布,推广,服从,第五节 正态分布均值向量的假设检验,Hotelling 分布 定义 设 , 且相互独立,则 结论1 分布是t分布的推广结论2 独立同分布于 则 ,分布与 分布之间的关系,定理 若 和 是 的样本均值和样本方差阵,记 = 则 ,单一总体均值向量的检验,零假设 : 已知时,检验统计量及其分布是: 未知时,检验统计量是: = 且 ,两个正态总体均值向量的检验,零假设 :情形1 i.i.d于 i.i.d于(1) 正定且已知时,检验统计量极其分布(2) 正定且未知时,

14、检验统计量极其分布,相互独立,情形2 i.i.d于 i.i.d于 检验统计量极其分布(1)构造新样本:(2)构造统计量:,相互独立,相互独立,作业二(2),若 服从 ,且 其中 为 , 为 阶的实矩阵, 证明: 服从 i.i.d于 i.i.d于其中 已知且两样本相互独立,推导检验 : 的检验统计量极其分布,(1) i.i.d于 (2)C为已知 阶实矩阵且秩为kp 推导检验零假设 : 的检验统计量和它的分布;拒绝和接受零假设的检验法则是什么?,实验四,选择两组有意义的一维样本检验零假设:说明:(1)这个检验的前提假设是什么(2)写出检验统计量的具体表达形式及利用SAS的“分析员应用”计算的统计量

15、值(3)在什么水平下接受或拒绝了零假设,第五章 多元回归分析,第一节 为什么要建立线性模型第二节 一元回归模型的建立第三节 一元回归模型的显著性检验第四节 一元回归模型的诊断第五节 曲线回归第六节 多元回归模型的建立第七节 多元回归模型与系数的显著性检验第八节 多重共线性,第一节 为什么要建立线性模型,线性模型简单、易分析相关性意味着线性性许多常用函数经过变换可以化为线性函数,如 一般函数可以通过Tayer公式局部线性化,第二节 一元回归模型的建立,观察由n个样本 构成的散点图或计算样本相关系数,若呈现明显的相关性,建立数学模型 其中 是未知参数,需要利用样本对它们进行估计,参数 的最小二乘估

16、计极其矩阵表达 模型1 最小二乘解:,矩阵偏导数与样本矩阵表达,模型2 最小二乘解:(1) 为y关于x的回归方程 (2)称 为方程的回归系数( )(3)称 为残差, 为残差向量(4)称 为残差平方和,与 的性质性质1 性质2 ,且 即 的无偏估计是1.2. 3. 由,性质3 与 相互独立1. 2.3. 验证 与 相互独立即可。 一个结论: 服从 ,AX与BX相互独立,第三节 一元回归模型的显著性检验,总平方和分解决定系数法,总平方和,回归平方和,残差平方和,方差分析法,零假设检验统计量的确定定理 在零假设下 (1) 在 下,含义?,(2) 且与 相互独立(3)检验统计量 ,方差分析表,Anal

17、ysis of Variance,第四节 一元回归模型的诊断,前提假设: 应进行如下诊断: (1) 的独立性 (2) 的等方差性 (3) 的正态性,误差的估计:残差,残差图(独立、等方差),由残差检验“ 相互独立,等方差”,残差不独立,异方差,由残差检验 的正态性(Q-Q图),的,分位数,理论分位数,样本分位数,(1)分布函数与分位数 设随机变量X的分布函数为 ,若 ,则称 是 的上侧 分位数或 的 下侧分位数 .此时有:,F的 上侧分位数,F的 下侧分位数,(2)样本分布函数 设 为一组样本,将它们按大小序排列: ,于是样本分布函数为:,(3) 的样本分位数 将 按大小序排列: 它的样本分布

18、函数为: 于是, 的 下侧分位数分别是:,样本分位数,(4) 的理论分位数 由 其中 的 理论下侧分位数可以通过查标准正态分布表得到: 若 确实服从,理论分位数,(5)Q-Q图,实验五 建立一元回归模型,选取一组有意义的数据 说明x与y之间具有较强的相关性 利用SAS的“交互数据分析” 建立回归方程,并进行如下说明:1.方程的显著性如何?哪些量能反映这一点?2.方程的前提假设是否满足?如何判定?,第五节 曲线回归,在实际中,y与x之间的关系不一定是线性关系,这大致有两种情况:根据专业知识知道y与x之间的关系,但其中含有未知参数,须通过实验数据加以确定; 如细菌总数y与时间x之间的关系为: 投入

19、为K,L,产出为y且规模报酬不变下的生产函数为:,通过所收集的n组 ,从所画的散点图发现y关于x的某种曲线关系.此时,需要我们选择适当的曲线拟合这些数据.例:由于钢液及炉渣对耐火材料的腐蚀,炼钢厂用的钢包容积不断增大.经试验得到钢包的溶剂y与相应使用次数x的数据.找出y与x之间的数量关系.,由散点图的形状决定拟合如下三个模型:,第六节 多元回归模型的建立,模型 基本形式: 样本表达: 矩阵表达:,参数 和 的估计,参数 的最小二乘估计是参数 的无偏估计是其中 是残差平方和,与 的性质,性质1 性质2 性质3 与 相互独立,性质4 若 (1) (2) 且与 相互独立(3) ,第七节 多元回归模型

20、显著性检验(1),决定系数法方差分析法 零假设: 检验统计量与其分布: ,含义?,第七节 回归系数的显著性检验(2),零假设 检验统计量与其分布: 其中 是 的第j+1个对角元,含义?,第八节 多重共线性,什么是多重共线性 若p个自变量 在某种程度上是线性相关的多重共线性可以造成参数的估计值严重偏离实际值 一个解释 : 的共线性使 接近奇异阵,从而使 中的对角分量或 的方差很大。,随机模拟方法,多重共线性对参数估计影响的例 原线性模型: 的观测值:正态随机数:由模型得到: 回归模型:,多重共线性的判定,方法1 相关系数法 若自变量间的相关系数1 ,则相应的两个变量之间有较强的共线性。方法2 方

21、差膨胀系数法( ) 若 是把第j个自变量看作因变量,用其余p-1个变量作线性回归所得到的决定系数,则第j个自变量的方差膨胀系数为:,克服多重共线性的方法,主成分回归对 进行主成分分析前m个主成分的累积贡献率足够大建立 与 的回归模型,随机模拟例的主成分回归结果,第一主成分的贡献率为0.993 y关于第一主成分的回归模型为:最后的整理结果为:,岭回归 岭回归是一种改进的最小二乘法.系数 的岭估计为: 即岭估计是参数的有偏估计 k在一定的范围内时, 的均方误差小于 的均方误差,即,k值的确定 (1) 相对稳定(利用岭迹图) (2)各系数的岭估计值有实际意义 逐步回归 这是一种从大量可能有关的变量中

22、挑选出对因变量有显著影响的部分变量的方法。这样可以保证最后所得到的子集中所有变量都是显著的。,实验六 建立多元回归模型,选取一组有意义的数据 利用SAS的“交互数据分析” 建立回归方程,并进行如下说明:1)方程和回归系数的显著性如何,如何判定?2)方程的前提假设是否满足?如何判定?3)多重共线性如何,你认为最后可用的回归 方程是哪一个?,总复习,多元正态分布均值、协方差阵以及相关系数阵的计算多元正态分布的四种等价定义多元正态分布总体参数的估计多元正态分布均值的假设检验多元正态分布与 分布之间的关系,回归分析,线性回归模型及前提假设参数最小二乘估计的矩阵表达极其性质回归方程的显著性检验及其原理回归方程系数的显著性检验及其原理自变量间多重共线性的判别方法残差分析的意义与基本原理,主成分分析,主成分分析的目的是什么样本主成分的计算步骤如何选择主成分主成分分析的应用 主成分回归 综合评价,聚类分析,系统聚类与动态聚类的流程图五种系统聚类法的定义系统聚类法的SAS实现,PASS,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号