《第十四章多变量数据的统计描述与推断(I)ppt课件.ppt》由会员分享,可在线阅读,更多相关《第十四章多变量数据的统计描述与推断(I)ppt课件.ppt(70页珍藏版)》请在三一办公上搜索。
1、2023/1/6,第十四章 多变量数据的统计描述与统计推断,陈 炳 为,Email:TEL:83272562,2023/1/6,统计分析有哪些应用?,比较(Compare:mean,rate,distribution)关系(Relation:correlation,linear,nolinear,etc.)预测(forecast:ARIMA,etc.)分类(classify:Discrimant,cluster)评价(Evaluation:Synthetic),2023/1/6,比较(Comparsion),比较两组*指标的比较(univariate)比较不同地区儿童生长发育(Growth a
2、nd development:height,weight,bust,etc.)情况不同组别的IgG,IgM,IgA,IgE,2023/1/6,关系(Relation),探索病因(relation)高血压与年龄、体重、吸烟量、饮酒量、工龄、遗传等校正混杂因素(confound)探讨巯基丁氨酸(homocysteine)与血压(BP)、冠心病(CoronaryHeartDisease)的关系,需调整年龄、性别、种族等因素。,2023/1/6,预测(Forcasting),门诊量(Outpatient)的预测 胎儿(Fetus)的体重,2023/1/6,分类(classification),临床诊断
3、(Clinical diagnosis)病毒鉴别(Virus classification)胸痛患者如何快速诊断(是否急性心肌缺血?)根据医疗水平、设备、工作效率等对医院分级气相色谱法分析细菌全细胞脂肪的含量来研究细菌的分类或鉴定。,2023/1/6,评价(Evaluation),综合评价(Synthetic evaluation)成本效益评价(Cost-effectiveness)卫生投入产出评价 健康状况评价,假设检验方法小结,如果P0.05,需要多重比较Multiple comparsion,假设检验方法小结,2023/1/6,一 多变量数据的定义,多变量数据(multivariate
4、data)观察结果有多个反应变量(responsible variable)的数据。如 血压:收缩压、舒张压、脉压 血脂:胆固醇脂、甘油三酯、磷酯等 儿童生长发育:身高、体重、胸围 甲状腺功能:T3、T4、TSH 雌激素:E2、FSH、LH 另外,心功能、肺功能等指标,多变量与多重变量之间的区别:多变量是指有多个反应变量。而多重变量指的是一个反应变量多个解释变量(如多元线性回归、多重线性回归)。多变量(Multi-var.)与多因素(multi factors)的区别:多因素试验是指有多个干预因素(处理因素treatments,分组因素 groups)的试验。如,P194例 11-1析因设计中
5、,A因素为逢合方法,B因素为逢合时间。但其反应变量只有家兔逢合后的轴突通过率,因此仍是一个单变量分析。正交设计也属于单变量分析。,矩阵(Matrix)的简单介绍,1 定义:mn个数排列成 m 行(横向)n列(纵向)的矩形数表:,甘油三酯、总胆固醇、高密度脂蛋白胆固醇 X1 X2 X3,X=,2 常用特殊矩阵(Special matrix):行矩阵(行向量 Row Vector):只有一行的矩阵;列矩阵(列向量Column Vector):只有一列的矩阵,通常称为向量;零矩阵:所有元素都等于0的矩阵 n阶方阵(square matrix):当m=n时上(下)三角阵(U.or L.triangul
6、ar matrix),对角阵(方阵)Diagonal matrix 单位阵(方阵)(Unit matrix)对称矩阵(方阵)(Symmetric matrix),3 矩阵的基本运算 相等 A=B,对所有的第i行第j列,有aij=bij 加法,数乘矩阵 转置(transponse),矩阵乘法,2023/1/6,EXCEL中MMULT实现,A=1 2;3 4;5 6B=1 2;3 4,2023/1/6,然后按CTRL+SHIFT+ENTER,2023/1/6,可逆矩阵(Inverse matrix)设A为 n 阶方阵,若存在 n 阶方阵B适合AB=BA=In。则称方阵A可逆,并称B是A的逆矩阵。记
7、B=A-1EXCEL中的MINVERSE函数,矩阵的行列式(determinate)记为det(A)或|A|,行列式可以看做是有向面积或体积的概念在一般的欧几里得空间中的推广。在EXCEL中利用MDETERM函数。,2023/1/6,第一节 描述统计量,一 均数向量与离差矩阵 1 均数向量(mean vector)设有n个观察对象,每个观察对象有m个反应变量,其数据格式如下,Xij代表的是第i个个体第j指标的测量值:,m个反应变量的样本均数构成均数向量,2 离差矩阵 全称为:离均差平方和与离均差积和矩阵sum of squares and cross-products matrix,SSCP,
8、2023/1/6,是第j个反应变量的离均差平方和(Sum of Square,SS),是第j个反应变量与第k个反应变量的离均差积和(sum of products of mean devations),并且有。,2023/1/6,二、方差-协方差阵(Variance-covariance Matrix)简称为协方差阵(covariance matrix)。协方差是指在两个不同时点上测定值相互变异性的大小,协方差阵就是方差协方差构成的矩阵。,2023/1/6,26,协方差(Covariance)的意义,I,II,III,IV,2023/1/6,是第j个变量的样本方差,即 为反应变量Xj与反应变量
9、Xi的样本协方差。S是对称阵。离差阵(SSCP matrix)L与协方差矩阵S(Variance matrix)有如下关系:L=(n-1)S,2023/1/6,3 相关矩阵(Correlation Matrix)任意两个反应变量Xj与Xk样本相关系数rjk构成一个mm样本相关矩阵,是一对称阵。,2023/1/6,例14-1 在一项健康调查中,随机抽取某单位15名正常成年男性测量血脂(Blood lipids),记录甘三油酯(TG,mmol/L)、总胆固醇(CHOL,mmol/L)和高密度脂白胆固醇(HDL,mmol/L),结果见表14-1。试对这三个变量进行多变量描述。,表 14-1 15名正
10、常成年男子的血脂含量(mmol/L),2023/1/6,求均数向量(Mean vactor 三个指标的平均程序),求协方差阵(Cov 三个指标的变异程序),2023/1/6,求相关矩阵(corr.三个指标的相关性),2023/1/6,SPSS操作,2023/1/6,SPSS结果,2023/1/6,data ex14_1;input id x1 x2 x3;cards;1 1.06 2.56 1.932 0.98 2.42 1.8015 1.03 3.25 2.32;proc corr cov outp=A;var x1-x3;run;,4 多元正态分布(Multi normal dist.),
11、多变量统计描述和推断中,通常假定数据服从多元正态分布。设为m个反应变量的总体均数向量,jk为第j个反应变量与第k个反应变量的总体协方差,jk 构成了mm的总体协方差矩阵。则分布函数如下:X服从 的分布。,2023/1/6,二元正态分布曲面 Surface(11=1,22=1,12=0),2023/1/6,二元正态分布曲面(11=2,22=4,12=0.75),2023/1/6,二元正态分布曲面剖面 profile(11=1,22=1/2,12=0.75),2023/1/6,m元正态分布(normal)的性质,每一个变量均服从正态分布。变量的线性组合(Y=a1x1+a2x2+apXp)服从正态分
12、布。m 元正态分布中的任意 k(0km)个变量服从 k 元正态分布。m元正态分布的条件分布仍服从正态分布。协方差为0的变量间相互独立。,2023/1/6,主要内容,多元T检验 Hotelling T2 one-sample单组资料(配对资料)two samples 两组比较 多元方差分析(MANOVA)=3 samples 三组及以上,第二节 组间差别比较,2023/1/6,1 单变量(univariate)资料统计分析(student t)检验某一样本是否来自已知总体,其假设检验为:,求其统计量:,2023/1/6,利用逐一单变量方法的缺点:(1)两组的各指标差别虽有统计学意义,但趋势不一。
13、,(2)两组间有些指标差别有统计学意义,有些指标差别无统计学意义。,(3)没有全面利用多个反应变量的信息。,2023/1/6,Hotelling T2,2023/1/6,例14-2 随机抽取某单位5名怀疑有冠心病的成年男性,测量其甘三油酯(mmol/L)、总胆固醇(mmol/L)和高密度脂白胆固醇(mmol/L)含量。根据例14-1已知,该单位正常成年男性的甘三油酯、总胆固醇和高密度脂白胆固醇均数分别为1.02、2.73、2.04 mmol/L。问该单位怀疑冠心病成年男性的血脂与正常成年男性有无差别?,表14-2 怀疑冠心病成年男性与正常成年男性的血脂差别(mmol/L),2023/1/6,1
14、 建立检验假设,2023/1/6,2 计算统计量F,2023/1/6,利用公式(14-9)、(14-10)计算Hotelling T2统计量和F值,2023/1/6,查F界值表,F0.05(3,2)=19.16,F0.01(3,2)=99.17 0.01P0.05,拒绝H0,接受H1。可认为怀疑冠心病成年男性的血脂与正常成年男性有差别。,2023/1/6,SPSS操作,2023/1/6,SPSS结果,请问Hotelling T2=?,2023/1/6,data ex14_2;input id x1-x3;c=1;cards;1 1.78 0.83-1.012 0.67 0.96-0.843 0
15、.56 0.83-0.394 0.66 1.12-1.035 0.21 0.16 0.40;proc glm;class c;model x1-x3=c/nouni;manova H=intercept;lsmeans c/stderr pdiff;run;,2023/1/6,2023/1/6,二 两组比较(Two sample),检验两个样本是否来自同一总体。如果两组样本观察值分别来自正态总体N(1,2)及N(2,2)。两样本均数 和 分别服从 和 的正态分布。其检验假设为:,2023/1/6,2023/1/6,把单变量的公式推广到多变量,其式子如下:,2023/1/6,在假定 成立的情况下
16、,,当n1,n2较大时,F值近似地服从自由度为m的卡方分布。,2023/1/6,例 14-3 某妇幼保健院将孕妇随机分成两组,一组接受孕期保健教育,另一组作为对照。表14-3是同一日出生的13名顺产婴儿的体重和身长,问孕期保健教育对婴儿生长发育有无促进作用?,表14-3 13名婴儿出生的生长以育状况,2023/1/6,P0.05,2023/1/6,1 作检验假设,确定检验水准 即两组婴儿的生长发育状况一致,2 计算统计量F值,2023/1/6,用公式(14-14)、公式(14-15)可求得,2023/1/6,3 确定P值,作出结论 查F值表,F=4.32,0.01P0.05,拒绝H0,接受H1
17、,可认为孕保期保健教育组出生婴儿生长发育优点对照组。,2023/1/6,data ex14_3;if _n_6 then c=2;else c=1;input id weight high;cards;1 3.05 502 4.10 5013 3.55 50;proc glm;class c;model weight high=c;manova H=c/printe printh;lsmeans c/stderr pdiff;proc corr cov outp=B;by c;var weight high;run;,2023/1/6,SPSS操作,2023/1/6,单变量与多变量之间的比较,多变量数据的统计描述和统计推断在描述与表达时采用了多变量的向量和矩阵的表示方法。,