两个样本和多个样本的相关分析.ppt

上传人:小飞机 文档编号:5184182 上传时间:2023-06-11 格式:PPT 页数:45 大小:533.50KB
返回 下载 相关 举报
两个样本和多个样本的相关分析.ppt_第1页
第1页 / 共45页
两个样本和多个样本的相关分析.ppt_第2页
第2页 / 共45页
两个样本和多个样本的相关分析.ppt_第3页
第3页 / 共45页
两个样本和多个样本的相关分析.ppt_第4页
第4页 / 共45页
两个样本和多个样本的相关分析.ppt_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《两个样本和多个样本的相关分析.ppt》由会员分享,可在线阅读,更多相关《两个样本和多个样本的相关分析.ppt(45页珍藏版)》请在三一办公上搜索。

1、第5章 两个和多个样本的相关分析,参数统计的关联性分析,参数统计中衡量两个定量变量之间线性相关程度的常用指标是皮尔逊(Pearson)相关系数,也称积距相关系数或动差相关系数(离差相乘)。相关系数的定义公式是:,参数统计的关联性分析,1.提出假设:H0:;H1:0,2.计算检验的统计量:,3.确定显著性水平,并作出决策。,相关系数非常高的样本也有可能来自无相关关系的总体。为了排除这种情况,需要对相关系数进行显著性检验。检验的步骤是:,这一检验在零假设成立且两个变量服从正态分布的情况下得出的。,皮尔逊相关系数的局限性,皮尔逊相关系数及其显著性检验是建立在数据变量为定量且服从正态分布的前提下。若这

2、一前提不成立,则结果不可信或是错误的。此时需要非参数方法。皮尔逊相关系数只能用来度量两个变量的线性相关性,不能用来度量两者的相关性。例,已知X,Y,g(X)是X的单调函数,则有:X和Y的接近时,Y和g(X)的可能接近于。,皮尔逊相关系数,错误!,变量:连续型正态分布线性关系,连续数据(Pearson积矩相关系数不讲):Kendall秩相关检验Spearman秩相关检验偏秩相关Kendall评定协和系数,本章主要内容,5.1 Spearman秩相关检验,Spearman秩相关是利用斯皮尔曼等级相关系数测定变量间等级相关程度的一种非参数统计相关分析方法。,基本思路与检验步骤,设x,y是抽自两个不同

3、总体X,Y的样本,其观察值为,将它们配对形成;如果将 各自排序,分别评出 在两个顺序样本中所在位置的名次(称为秩),记作,得到n对秩:n对秩可能完全相同,也可能完全相反,或者不完全相同。,可见,当X与Y完全相关时,记作。其中,可以用来度量x和y的相关程度:越大,x与y之间的相关越不完全。由于 可正可负,直接用 测度相关会缩小 之间的差值,故用 来反映 的差值大小;但 既受 不一致程度的影响,也受观察值个数n的多少之影响。为了准确度量x和y的相关程度,我们用 的最大值去除,则得到了一个相对测量指标,称为等级相关系数,记为R。的最大值反映了x与y之间完全负相关,它等于:,检验步骤:(1)建立假设:

4、或 或(2)计算检验统计量:斯皮尔曼等级相关系数是测定两个样本相关程度的重要指标:式中:,的取值范围在-1到+1之间。0为正相关,0.8为相关程度越高。(3)做出决策:当 时,拒绝;当,不能拒绝。是临界值(书中记为),它是根据样本观测之个数n、备择假设(单或双侧)以及给定的显著性水平查Spearman秩相关系数检验临界值表查得。,注意:1:遇到打结的情况时,如果x或y打结不多,可以用平均秩解决;如果打结过多(超过全部数据的1/5),在计算时需要加上校正因子(公式略)。2:当n为大样本时,近似服从正态分布N(0,1)。单侧:P()=;双侧:2P()=2。,应用,某班15名学生的数学成绩与统计学成

5、绩如下表所示:,试分析学生的数学成绩和统计学成绩的相关性()。,解:(1):提出假设:(2):计算检验统计量(3):作决策 所以拒绝,可以在5%的显著性水平下认为数学成绩与统计学成绩存在正相关关系。又因为,两者呈高度正相关,相关程度达82.5%。,练习,在一次跳水比赛中,有2名裁判员给运动员的评分引起了争议。下表列出了他们给12名选手的评分情况。试在5%的显著性水平下对这两名裁判员在本次比赛中的评分进行相关分析。,5.2 Kendall秩相关检验,这种方法与Spearman秩相关检验一样,也是利用秩来研究两个变量之间的相关程度,只是考虑问题的角度不同而已。,7.2.1 基本思路与检验步骤,对于

6、n对配对数据,现分别评出x与y两个数列的秩,然后将x的n个数据的秩按自然顺序排列,再考察x的秩与y的秩的一致性。如果两个秩次由小到大排列,则称为一个一致对,记作+1;否则成为非一致对,记作-1。由于x的秩次是按照自然序列由小到大排列的,因此x的观察值每两个秩之间都是一致对。,例如,对于样本数据(10,6),(8,12),(11,7),(9,8)而言,x与y的秩为:X的秩:R 3 1 4 2 Y的秩:S 1 4 2 3将x的秩按自然顺序排列,四对秩的顺序变为:X的秩:R 1 2 3 4 Y的秩:S 4 3 1 2,x与y的一致对和非一致对的数目计算:,在x的秩按自然顺序排列时,y的一致对最大数目

7、产生于y的秩也按自然顺序排列的情形,此时它等于。所以,用y的一致对数目与最大可能一致对数目相比较,可以测定x与y的相关程度。,Y的一致对数目与最大可能一致对数目之比为:Y的非一致对数目与最大可能一致对数目之比为:当y的秩完全按自然顺序排列时,(1)式的值为1,(2)式的值为0;当y的秩完全与x的秩相反时,(1)式的值为0,(2)式的值为1。为测定两组秩之间的相关程度,定义的相关系数取值范围从-1到+1。,Kendall秩相关系数的定义公式为:,令,则Kendall秩相关系数 公式为:如果x与y有完全相同的评秩,则,表明x与y完全正相关;如果x与y有完全相反的评秩,则,表明x与y完全负相关。一般

8、认为,两组秩次相关程度较高。,Kendall秩相关系数的概率解释,对于对配对数据两两比较,将会出现三种情形,即:和谐、不和谐和同分的概率分别记为,且有:对于连续数据,一般有,肯德尔系数的被定义为:前面计算公式就是这一公式的一个估计。,检验步骤:(1)建立假设:或 或(2)计算检验统计量(3)作决策当 或 时,拒绝;当 或 时,不能拒绝。注:一般的表只是当k或 为正的情况。在k0时,由对称性,取绝对值查表即可。,5.2.2 应用,根据节中的例子,用Kendall秩相关检验法分析学生数学成绩与统计学成绩的相关性。解:(1)建立假设(2)计算检验统计量,(3)做出决策根据n=15,查Kendall检

9、验临界值表,得。因为0,且,所以拒绝,可以认为总体数学成绩与统计学成绩之间确实存在正相关关系。,练习,1.10个国家和地区1999年的国际化程度和国际竞争力排名情况如下表所示:试分析国家化程度与国际竞争力的相互关系(),2.美国阿尔塔郡的市长对每年一次的美男子比赛感兴趣。比赛按5个方面来评选参赛者:容貌,知识,才能,体形和音质。市长想知道这5个方面(变量)之间有无联系。比赛之后,他得到了7位参赛选手的容貌和才能的得分(见下表),试分析容貌是否和才能有关。参赛者编号 容貌 才能 1 50 12 2 48 10 3 30 40 4 47 13 5 20 50 6 25 45 7 40 20,3.试

10、根据下列资料分析驾校训练场模拟驾驶考试的成绩与在公路上的实地驾驶考试的成绩之间是否相关。12名学员两次考试的结果 学员编号 模拟考试 实地路考 1 97 94 2 60 61 3 52 48 4 87 85 5 77 76 6 89 87 7 79 75 8 98 97 9 94 92 10 83 80 11 74 71 12 73 72,若有结时,用估计就会低估。这时需要修正公式。对于一个有个相同观测值的结情形,共有个对子,显然一个修正可以如下:,有结修正与大样本近似,式中,是x中打结观察值的个数(结长);是y中打结观察值的个数。,解:计算对子的原则是相同的不计入。,当n40时,可以视为大样

11、本,用正态分布逼近:,大样本近似,5.3 偏秩相关,当研究两个样本的相关性时,可能计算出来的相关系数并不直接反映两个样本间存在真正的或直接的关系。这种相关性是因为两个样本都和第三个样本有关系而产生的。这个问题在参数统计中是通过偏相关解决的,在非参数统计中也可以用偏相关的测算方法处理。本节介绍Kendall偏秩相关系数。,5.3.1 基本思路,若X、Y与第三个样本Z有关,即由于Z的变化对X、Y之间的关系有影响,则考察去掉Z的影响,仅仅研究X、Y之间的相关就是偏相关。在统计上,偏相关就是保持Z恒定下X、Y之间的相关。若有三个样本X、Y、Z,每个样本有n个数据,且都至少是在定序尺度上测量,则根据Ke

12、ndall秩相关系数的定义,表示X与Y之间的秩相关程度,表示X与Z之间的秩相关程度,表示Y与Z之间的秩相关程度。Kendall偏秩相关系数:,是Z不变时X与Y之间的相关系数,其取值范围是-1到+1之间,但它的抽样分布迄今未知,因而无法对其进行显著性检验。5.3.2 应用例 社会上普遍认为:取得学士学位以后在工作中继续研究生课程的学习很重要,也就说在职继续学习比单纯地学院式学习更有意义。今调查了7个人的年龄、花在继续学习上的时间以及月收入情况,得到下列数据。试根据上述资料分析收入与继续受教育程度的相关性。,序号 年龄(岁)继续学习时间(小时)月收入(千元)(Z)(X)(Y)1 40 18 2.5

13、 2 35 0 2.0 3 30 6 1.5 4 36 15 2.4 5 41 24 3.0 6 45 30 2.8 7 48 45 2.9,解:对于要分析研究的收入与继续学习的关系,在调查中增加了年龄,这可以看作是第三个样本。分析收入与继续学习的关系,可以利用上表资料计算相关系数。虽然表中数据均为定比尺度测量,但样本数目较少,不符合参数统计中计算积相关系数的要求,且对总体不做任何假设,采用非参数统计方法中的Kendall秩相关系数较为合适。,X 0 6 15 18 24 30 45Y 2.0 1.5 2.4 2.5 3.0 2.8 2.9 y=5+5+4+3+0+1+0=18 xy=4(18

14、)/7(7-1)-1=0.7143 根据n=7,=0.7143,查表可得到,p近似等于0.015,对于0.05的显著性水平来讲,p值足够小,因此数据拒绝不相关的零假设,表明收入与继续学习的时间存在相关。由于=0.7143,表明两者的相关程度不算高。但考虑到收入可能受年龄的影响,继续学习的时间也会受到年龄的影响,因而应排除年龄因素的影响,计算偏秩相关系数。,为此,先要计算 和。将X依次排序,得到Z的排列及相应的相关系数:X 0 6 15 18 24 30 45Z 35 30 36 40 41 45 48 uxz=5+5+4+3+2+1+0=20=40(20)/7(7-1)-1=0.9048将Y依

15、次排序,得到Z的排列及相应的相关系数:Y 1.5 2.0 2.4 2.5 2.8 2.9 3.0Z 30 35 36 40 45 48 41 uyz=6+5+4+3+1+0+0=19=4(19)/7(7-1)-1=0.8095,所以,与 比较相差甚远。仅仅是一个很小的数值,以至无法做出存在相关的结论。但它与 共同使用可以说明收入与继续学习的时间,在年龄因素的影响下存在一定的相关。除了年龄的影响外,两者之间几乎没有什么联系。,5.4 Kendall协同系数检验,检验问题:H0:对于不同个体的评判是否随机或不相关。H1:对于不同个体的评判是正相关的或一致的。Kendall协同系数:,Kendall协同系数的简易公式,简易手工计算公式,Kendall协同系数的显著性检验,W值越大,Kendall协同系数越应该拒绝零假设,接受备择假设。在零假设H0下,对于固定的m,当n趋于无穷大时,可以进行显著性检验决策。,实例,四个独立的环境研究单位对10个城市的空气等级排序如下:,解:m=4,n=10 统计量的值为:m(n-1)W=36*0.8530=30.7091。在显著性水平5下,其临界值为:。显然应该协同系数具有显著性。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号