检验与方差分析教学.ppt

上传人:小飞机 文档编号:6302228 上传时间:2023-10-15 格式:PPT 页数:62 大小:991KB
返回 下载 相关 举报
检验与方差分析教学.ppt_第1页
第1页 / 共62页
检验与方差分析教学.ppt_第2页
第2页 / 共62页
检验与方差分析教学.ppt_第3页
第3页 / 共62页
检验与方差分析教学.ppt_第4页
第4页 / 共62页
检验与方差分析教学.ppt_第5页
第5页 / 共62页
点击查看更多>>
资源描述

《检验与方差分析教学.ppt》由会员分享,可在线阅读,更多相关《检验与方差分析教学.ppt(62页珍藏版)》请在三一办公上搜索。

1、第十三章 检验与方差分析,我们前面已经比较系统地讨论了双样本的参数和非参数检验的问题。现在,我们希望利用一般的方法来检验三个以上样本的差异,检验法和方差分析法就是解决这方面问题的。检验法可以对拟合优度和独立性等进行检验,方差分析法则可以对多个总体均值是否相等进行检验。后者由于通过各组样本资料之间的方差和组内方差的比较来建立服从F分布的检验统计量,所以又称F检验。,第一节:拟合优度检验第二节:无关联性检验第三节:方差分析第四节:回归方程与相关系数的检验,第一节 拟合优度检验,运用Z检验、t检验等讨论假设检验的问题,一般要求总体服从正态分布,或者在大样本条件下可以利用渐近正态分布理论来描述抽样分布

2、。也就是说,我们都要直接或间接地假定对象总体具有已知的分布形式,然后对总体的未知参数进行假设检验。如果不知道总体的分布形式,就无法运用t检验法等对总体参数进行假设检验。于是,这里有一个前面留下来的尚未讨论的问题很重要,就是怎样检定总体是否具有正态或其他分布形式?拟合优度检验正是就这一问题而言的检验方法。,第十一章最后一节,我们将累计频数检验用于经验分布与理论分布的比较,实际已经提供了拟合优度检验的一种方法。拟合优度检验与累计频数拟合优度检验相对应,在评估从经验上得到的频数和在一组特定的理论假设下期望得到的频数之间是否存在显著差异时,是一种更普遍的检验方法。现在我们再来看看第七章提到的著名的孟德

3、尔豌豆试验。根据孟德尔提出的分离规律,纯种豌豆杂交后的子二代出现分化,红花植株与白花植株的数目应为31。但由于随机性,观察结果与31理论值总有些差距。因此有必要去考察某一大小的差距是否已构成否定3l理论的充分根据。这正是我们所讨论的拟合优度检验的问题。解决这类问题的工具,是卡皮尔逊在1900年发表的一篇文章中引进的所谓 检验法。,1问题的导出,首先把问题表述成一般模式。设一总体包含c种可区别的个体。根据某种理论或纯粹的假设,第i 种个体出现的概率应为某个已知的数Pi(i1,2,c),有Pi 0,1。这一组概率(P1,P2,Pc)就构成了我们的理论分布。现在在该总体中随机地抽取一个容量为n的样本

4、,发现其中第 i 种个体的数目为fi(i 1,2,c),并有 n。我们要据此检验理论分布。用概率论的语言可以这样说,设对象总体中随机变量X有c种取值。当X的取值是xi 时,按零假设,其总体分布等于理论分布,即P()Pi(i1,2,c)例如,就孟德尔的31理论来说,c 2,P(x1)3/4,P(x2)1/4。现在从该总体中随机地抽取一个容量为n的样本,发现其中xi(i1,2,c)出现的次数为fi(i 1,2,c),并有 n。知道了频数也就知道了频率,即:出现的频率为,并有 1。现在我们就是要据此经验分布来检验总体分布等于理论分布的零假设。,2拟合优度检验(比率拟合检验),拟合优度检验如何进行?,

5、关键是确定合适的检验统计量以及该统计量所服从的概率分布。这里不可避免地要引进某种人为因素,即人们设计出下面这样的综合性可比指标:,其中k1,k2,kc 是适当选取的常数。仔细观察不难 发现,L值大,意味着经验分布与理论分布偏离大;L值小,意味着经验分布与理论分布偏离小。当在某个选定的水平上,经验分布显著偏离理论分布,那么对象总体具有某种分布形式的零假设便被否定。,结论:,用 作为检定Ho成立的检验统计量,理论证明,当n足够大 时,该统计量 服从 分布,它是一种具有已知的并制成表的概率 分布,因此对给定的显著性水平,可求得临界值,与 比 较,进而作出检验结论。显而易见,理论频数 fe 与观测频数

6、 fo 越接近,统计值越小,经验分布与理论分布拟合程度越好。反之,fe 与 fo 差距越大,值越大,经验分布与理论分布拟合程度越差,拟合优度检验由此得名。,例 孟德尔遗传定律表明:在纯种红花豌豆与白花豌豆杂交后所生的子二代豌豆中,红花对白花之比为3:1。某次种植试验的结果为;红花豌豆176株,白花豌豆48株。试在005的显著性水平上,对孟德尔定律作拟合优度检验。(参见下表),应用举例,3正态拟合检验,例 试对下表所给男青年身高分布的数据作正态拟合检验,选取005。,解,检验的另一个重要应用是对交互分类资料的独立性检验,即列联表检验。在上一章,我们曾多次提到过性别与收入高低有无关联的问题,在实际

7、中类似的问题很多。例如受教育程度与投票行为有无关联?吸烟与寿命长短有无关联?家庭小孩多少与收入多少有无关联?受教育时间长短与收入多少有无关联?血型与某种性格上的差异有无关联?等等,把这类问题上升到一般,就是在列联表的基础上考察变量X与Y有无关联。由于列联表一般是按品质标志把两个变量的频数进行交互分类的,所以:检验法用于对交互分类资料的独立性检验,有其它方法无法比拟的优点;如何求得列联表中的理论频数就成了独立性检验的关键。,第二节 无关联性检验,1、独立性、理论频数及自由度,应用此式,不必计算理论频数,计算与 这个检验统计量相联系的自由度,算出 统计量之值并定出其自由度后,就可以依前述的方法,在

8、给定了显著性水平之后,来对X,Y属性无关联的零假设进行检验了。,应用举例,检验也适用于定类变量和定类变量的相关统计,即可以用它检定和系数是否显著。就下表所示资料,试以 检验检定性别与收入之间的相关程度是否显著(取0001)。,解,故拒绝H0,即认为总体上性别与收入高低之间不独立,有显著相关关系。,例 在某种流行病流行的时候,共有120个病人进行了治疗,其中40个病人按标准剂量服用某种新药,另有40个病人按标准剂量的2倍服用了这种新药,其余40个病人只按病状治疗(而不是按病因治疗),治疗结果按迅速痊愈、缓慢痊愈、未痊愈分为三类,最后交叉分类的情况列于下表,试问这三种疗法之间有没有差别(取005)

9、。,解H0:这三种疗法之间没有差别 H1:这三种疗法之间有差别 由于005;自由度k(cl)(r l)224,查 分布表得临界值:在零假设下,计算检验统计量,计算过程参见后表。因此,故拒绝零假设,即三种疗法之间有显著差别。,第三节 方差分析,方差分析,是一种很重要的分析方法,它可以检验两个以上样本均值之差。方差分析是均值差检验的推广,一般用于处理自变量是一个(或多个)定类变量和因变量是一个定距变量之间的关系。方差分析所包含的假定与均值差检验所包含的假定差不多,例如正态分布、独立随机样本、等方差性等,但检验本身却很不相同。方差分析直接涉及的是方差而不是均值和标准差。同时,比较也不取两种估计量之差

10、,而是取两种估计量的比率。在两种估计量彼此独立的前提下,两种估计量之比率F具有已知的抽样分布,因而可进行很简单的检验。,1总变差及其分解,总变差:在方差分析中记作SST,它表示 对于总均值 的偏差之平方和。即:SST 式中:ni是第i个样本的容量,n,为什么会形成总变差这个散布度呢?一是三个样本可能不同,这使全部数据 有三个“中心”;二是随机抽样误差的影响,使数据在每个中心附近有散布。,总变差分解,可以看出,总变差分解成两部分:第一部分是各观测值 对其所属类别均值 的偏差的平方和,称为组内变差(Within-groups Sum of Squares),记作SSW。组内变差反映了数据围绕各“中

11、心”的散布程度,即反映了 因随机波动所产生的变异,与自变量因素无关。换言之,SSW是自变量因素所没有解释的 的变异。因此,又称之为残差。第二部分是组间平方和(Between-groups Sum of Squares),记作SSB,它涉及到诸类别均值 对总均值 的偏差,反映了前表中数据的c个“中心”的散布程度。,弄清了组间变差和组内变差,检验“A1A2A3”(也就是零假设123)的思路也就梳理出来了:关键是比较两种变差是否有显著差异。若第一种变差明显大于第二种变差,则认为家庭因素对孩子图书消费是有影响的;若第一种变差与第二种变差之间无显著区别,则不能认为家庭因素对孩子图书消费有影响。但在统计学

12、上,方差分析不取两者之差而取两者之比来进行这种比较。而且,方差分析不是直接用SSB/SSW作为检验统计量,而是用可以解释的方差/不能解释的方差作为检验统计量,即:,2关于自由度,组间平方和代表c个样本均值对总均值的偏差。也就是每个可看作为一个单位,c个可看作为c个单位,有c个自由度,求用去一个自由度。因而,与组间平方和相联系的自由度为c1。再看组内平方和,计算时每列失去一个自由度。因而,与组内平方和相联系的自由度为nc。最后看总平方和,计算总均值时失去一个自由度。因而,与总平方和相联系的自由度为nl。总的来看有:,nl(nc)+(c1),总自由度组内自由度+组间自由度,上式是在在零假设(H0:

13、12c)之下,检验统计量Fo的计算公式。理论证明:上式服从分子自由度为k1c1、分母自由度为k2(nc)的F分布。于是,给定显著性水平,我们就可以很方便地从F分布表中查到临界值F(c1,nc)。如果出现FoF的情况,我们将在这个显著性水平上拒绝零假设。在实际运用中,方差分析的结果常用一种称为“方差分析表”的标准形式的表格表示出来,其基本形式如表后所示。,为了简化检验统计量Fo的计算,有必要将SST、SSW、SSB这三个定义式展开,其方法与分解总变差的方法相同。于是有:,3关于检验统计量Fo的计算,注意,由于总变差等于另两个变差之和,所以三个变差中仅需求出两个变差。求出组内平方和比求另两个平方和

14、繁琐得多,故通常我们都是从总平方和减去组间平方和来求组内平方和的。,例 试对下表中的资料,计算SST、SSW、SSB,并检验123的零假设(取005)。,解:据题意,n1n2n38,n1+n2+n324 组内自由度nc24321 组间自由度c1312 分别计算SST和SSB,计算过程参见下表。,由于005,查F分布表得临界值:F(c1,nc)F 0.05(2,21)347119 故在0.05显著性水平上不否定零假设,即没有充分根据提出这三类家庭的孩子在图书消费方面有显著不同。,例研究某种商品销量与品牌的关系,得下表资料,其中A1,A2,A3表示不同的品牌,数据表示销量。试以显著性水平10判断品

15、牌对该种商品的销量有无影响。,解据题意,n1n1+n2+n32+4+3 9 组内自由度nc936 组间自由度c1312 分别计算SST和SSB,计算过程参见前表13.16。,于是得MSB 和 MSW MSBSSB(c1)6.89/23.45 MSW SSW(nc)30/65.00 再根据(1319)式求检验统计量Fo Fo 0.69 1 故在010显著性水平上不否定零假设,即不能判断不同品脾对 该种商品的销量有显著影响。,4相关比率,当方差分析的检验呈显著性后,进一步讨论两变量间的相关程度是很自然的。方差分析中相关程度的测定仍采用PRE法。当不知因变量Y 的取值与自变量X 的取值A1,A2,A

16、 c有关时,最好的预测是以总均值 作为Y 的估计值。此时,估计所犯的错误将等于SST E1SST 当已知因变量Y 的取值与自变量X 的取值A1,A2,A c有关后,自然用各样本的均值 作为各类别的预测值,此时预测所产生的误差将等于SSW E2SSW 所以消减误差比例可写成 PRE 正是因为上式,我们把SSB称为已解释的变差。显然,已解释的变差越大,预测Y 所减少的误差就越多,X与Y 之间的关系就越密切。据此,方差分析中把已解释的变差对总变差的比值称为相关比率,用符号 表示 1 可用于一个定类变量与一个定距变量的相关程度的测定,当然也可以用于定序定距变量或定距定距变量的相关程度的测定。,例 试以

17、表1312的资料,分析孩子图书消费与家庭类型的关系。解 据前面例题中已计算的结果,已知SSB28,SST276,因而有 1 10.1%可见,就表给资料而言,利用家庭类型预测孩子图书消费量,只能削减10.1%的预测误差。,小结:,相关比率 研究的是定类定距变量之间的相关程度。由于定类变量不具有数量大小的问题,不存在关系是否线性的问题。因此,当 被用于研究定距定距变量之间的关系时,不仅可以作为线性相关的量度,也可以作为非线性相关的量度。这意味着,对线性相关,相关比率 与r2(积差系数之平方)有相同的PRE性质;但如果对非线性相关,用积差系数r 来讨论就不行了。对于定距定距变量,曲线相关既然要用R来

18、测量,那么反过来,同一资料通过相关指数R与积差系数r计算的比较,可以判断确定两定距变量的关系是不是直线。如果同时求出r与R,r 等于或略大于R,可说明两变量关系是直线的,用r去测量是合适的;如果rR,则说明两变量关系可能是曲线的。,首先,MSB和MSW可以分别称为组间方差和组内方差,其中(在等方差的假设下)组内方差总是2的无偏估计;而组间方差,只有当诸总体(即各样本所代表的子总体)均值实际上相等时,它才是2的无偏估计。这就是说,如果零假设为真,MSB和MSW之间将没有太大的差别。反之。如果零假设实际不正确,可以期望MSB和MSW的比值大于1。如果这个比值小于1,则不从F分布表中查找临界值F就可

19、以判断零假设不能被否定。其次,以上两个例题也可以用均值差检验来处理。均值差检验涉及t分布,可以做三组合的比较即A1与A2,A2与A3,A1与A3。与均值差检验不同,方差分析仅进行一次检验来判定三种类别的家庭(或品牌)在消费(或销售)上彼此是否有显著性差异。方差分析的优点在于,一个检验可以代替多个检验。如果有四个类别,均值差检验需做(43)26次;如果有六个类别,需做(65)215次;如果有十个类别,需做(109)245次。况且,如果做15次均值差检验。其中4次结果具有显著性,这时应当下什么结论?可能很难回答。,5关于方差分析的几点讨论,第三,方差分析中的自变量X如果是二分变量,也可以采用均值差

20、t检验。在这种情况下,F 的分子自由度是211,分母自由度是n2,这与均值差检验中的t相同。经过计算可知,具有自由度n2的t 2值等于具有分子自由度为1和分母自由度为n2的F 值。比较F 表和t 表也可以核实这一点。换言之,t是分子自由度为l的F 的平方根。这当然意味着,对于样本而言,此时不论采用方差分析或均值差检验,其结果完全相同。第四,本节集中讨论了自变量为一个定类变量而因变量为一个定距变量的情况。如果对因变量Y影响的自变量由一个变为两个以上,我们就将面对多元方差分析了。总变差分解的思想可以直接推广至多因素显著性检验。例如就两个自变量(A和B)独立对因变量Y 影响的情况,可以得到下述方差分

21、析表(表1317)。,相关与回归,由于其广泛应用,如今在统计学中是高度发展的分支之一。而从实用的观点来看,线性关系是最简单也是最重要的一种关系。本书第十二章已经对积差系数与回归直线作了比较细致的讨论。但有关假设检验的内容,由于要借助于推论统计的知识方能阐明,所以本书将这部分内容集中放到这一节来加以补充。学过推论统计的人要克制自己免受直线的诱惑,对此,讨论回归系数和积差系数之假设检验将具有重要意义。,第四节 回归方程与相关系数的检验,1回归系数的检验,检验两个总体变量(定距定距变量)是否具有线性关系,主要检验总体的回归系数B是否等于零。因此,对于总体线性检验的假设可写成如下形式:,H0:B0 H

22、1:B0,为了寻求检验H0的方法,我们需要对离差平方和进行分解。而这项工作,前面已经完成。我们发现,估计Y,当不知Y 和X 的关系时,对它的最佳估计值只能是。离差之平方和(总变差),正是不知Y 和X 的关系时,估计Y的全部误差E0,E0 SST,做了回归预测之后我们可以用Yc估计Y(参见下图)。这时估计Y 的误差变为E1(剩余变差):E1 SSW,显然,利用Yc去估计Y 比用去 估计Y 要消减一些误差。消减的误差E0E1就是被回归直线解释掉的误差(回归变差)。从第十二章已经讨论过的回归变差和剩余变差的意义来看,一个回归方程效果的好坏,取决于它们两者之间的比较。已解释的回归变差越大,用Yc 去估

23、计Y 比用去 估计Y 消减的误差就越多,回归预测的效果也就越好。依此,并按上一节方差分析的思想,在H0成立的条件下,检验回归直线的统计量可构造为,E0E1,Fo F(1,n2),自由度问题,因回归变差中仅含一个自变量X,故自由度为l。而总变差所含自由度为(n1),从而由总自由度组内自由度+组间自由度,得剩余变差的自由度为(n2)。对选定显著性水平,可查表得临界值F。若出现FoF(1,n2)的情况,则拒绝H0,即认为回归方程中X变量对Y的解释力是显著的;若出现FoF(1,n2)的情况,则不能拒绝H0,即认为回归方程中X 变量对Y 没有的显著的解释力。,例 对例1251所建立的回归方程进行回归直线

24、的检验(取005)。,解 根据表12.22和例12.5.1的计算结果可知:48,252,52.5,299.75,268.5 a0.475,b0975,n12 299.750.47552.50975268.5 13.02(0.975)2252 5704,计算检验统计量 Fo 43.81 对005,查F 表得临界值 F(1,n2)F005(1,10)49643.81 所以拒绝H0,即可以认为对总体配置回归直线是 有意义的。,2积差系数的检验,对于定距定距变量,上一章讨论的积差系数是就样本而言的。如同样本均值、成数不能完全代表总体均值、成数一样,样本积差系数r 也不就是总体积差系数。但在社会研究中,

25、要想确切了解两总体变量(定距定距变量)间的积差系数是很 难的。所以,通常需要通过样本积差系数的统计检验来认识总体的积差系数。设有两变量X 和Y,它们的积差系数记为。当0时,表示X和Y不具有线性相关关系,当0时,表示X和Y 具有线性相关关系。实践证明,样本积差系数r 值比较大时,并不等于总体积差系数也比较大。尤其是样本中所含观测值较少时,更可能出现这种情况。例如,当X与Y各只有两个样本数据时,积差系数总是为1,但显然这不 能说明变量间一定完全相关。也就是说,有时即使样本积差系数很 大,也并不一定就表明总体积差系数也一定很大。总体积差系数 的情况,只有在对样本积差系数进行统计显著性检验后,才能得出

26、结论。,那么判断线性相关的“显著”与“不显著”的检验统计量如何构造呢?,统计理论证明,样本积差系数是总体积差系数的一个无偏估计量,有:=,=,而且当0时,样本容量越大,r(显然为一随机变量)的抽样分布越接近于自由度为n2的t分布(见前图)。因而有检验统计量:tor t(n2),积差系数检验的假设为:H0:0(两总体不具有线性相关关系)H1:0(两总体具有线性相关关系)对选定的显著性水平,查t分布表得临界值t/2(n2),与统计值to作比较。若,则表明r在统计上是显著的,即总体积差系数显著地不同于零;,则说明r在统计上不显著,即X与Y间并不存在线性相关关系。,例1241已对表1221所示资料求出

27、积差系数,试在0.05显著性水平上作总体相关检验。,表12.21,解 建立假设 H0:0 H1:0 已知r0902,n12,于是得 tor 0902 6608 对005,查表得临界值 t/2(n2)t0。025(10)22286608 故拒绝H0,接受H1,即认为员工的工龄和技术考核分之间存在线 性相关。但是,为了使用者的方便,上述检验现已简化为使用相关系数r进 行直接检验。附表12是以r的抽样分布编制的相关系数表,只要给出显 著性水平和自由度kn2,便可以在表中直接查出相应的临界值 r(n2)。,解 已知r0902,n12,对005,k 12210,从附表12中查得 r(n2)r(10)05

28、760902 故拒绝零假设,即在005显著性水平上可以认为员工的工龄和技术考核分之间存在线性相关。,例:用附表12直接对上例进行积差系数检验。,小结:,上一小节,我们讲的是回归系数的检验,实际上那只是线性回归方程的检验。而这一小节讨论积差系数的检验,也是要确认总体线性相关的存在。因而假设H0:B0与假设H0:0等价。也就是说,如果样本积差系数r 通过了检验(t 检验),也必然导致回归系数b能通过检验(F检验)。实际上F公式与t 公式是有对应关系的。Fo t 2 即具有自由度n2的 t 2值等于具有分子自由度1和分母自由度n2的F 值。也正是由于这个原因,有的教科书就是用t 统计量来检验回假设的

29、。而如果有了r 检验表(附表12),问题就变得更为简单,计算Fo值并进行F 检验也都不必要了。,估计Y 当不知Y 和X 有关系时,对它的最佳估计值只能是,估计的全部误差是;当知道Y 和X 有关系时,可以改用Yc 来估计Y,此时估计的误差减少为。当知道Y和X有关系后,用Yc来估计Y固然可以消减不少估计误差,这也不过是点估计。而如果我们能在拟合值Yc上下设置一个合适区间,那么Y被估计到的可能性便会大大增加。,3回归方程的区间估计,回归方程区间估计提出的背景,在回 归线两侧设置一个估计区间总是容易做到的,但问题是我们需要对估计的信度和效度作通盘考虑。为此,我们必须了解Y在Yc两侧的分布特征以及Y在Y

30、c两侧的分散程度。,由于误差为正态分布的原理(即中心极限定理),当样本容量n大于30时,我们可以作如下假定(参见前图):1)Y 的实际观测值在对应的每个估计值Yc周围都是正态分布,越靠近Yc的地方,Y值出现的机会越多,反之出现的机会越少;2)所有正态分布都具有相同的标准差,即所谓的同方差性。于是,除了重温过去的知识,只有一个具体问题要解决:为了测定回归线的代表性,有必要参照标准差的意义,引进一个离中趋势的量度估计标准误差,记作SY/X,用来反映围绕回归线的Y值的离散程度。在这里,求算估计标准误差具有第九章中求算抽样平均误差同样的意义。,当知道Y和X有关系时,用Yc 来估计Y,估计的误差为剩余变

31、差,即SSW。所以,估计标准误差显然为剩余方差MSW的平方根,即 SY/X 直接采用上式来计算估计标准误差比较麻烦,实际计算时,一般用下式(前面已经证明)SY/X,例 就表12.21所示资料,在例1251 的基础上,根据员工的工龄和技术考核分所建立的回归直线方程,求算估计标准误差。解 就表12.21所示资料,在例1251 的基础上,参照例l341的计算结果,已知 13.02 SY/X 1.14 所以,用回归线0.475+0.975X估计因变量Y时的估计标准误差为1.14(分)。,有了估计标准误差,再结合回归方程,就可以对因变量Y进行估计和推断了。具体来说,就是建立回归估计的置信区间(参见第九章

32、“区间估计”一节),借以确定回归方程预测或控制Y的范围。现在根据上述两个假定,并参见第七章图76,的取值或预测区间可以这样期望:,(1)取 1SY/X,那么在散点图上约有6826的观测点落在其间(参见图133)。(2)取 2SY/X,那么在散点图上约有9546的观测点落在其间(参见图133)。(3)取 3SY/X,那么在散点图上约有9973的观测点落在其间(参见图133)。,例 试以表12.21中的资料为例,说明回归置信区间建立的方法。解 根据例1251和上例计算的结果,已知 0.475+0.975X SY/X1.14 假定自变量工龄X为5(年),得技术考核分的拟合值 0.475+0.97555.35 那么+1SY/X 5.35+1.14649 1SY/X 5.351.14421 即对工龄为5年的员工,他们的技术考核分在421分至649分之间的概率为6826%。+2SY/X 5.35+21.14763 2SY/X5.3521.14307 即对工龄为5年的员工,他们的技术考核分在307分至763分之间的概率为9546%。,本章结束,谢谢大家!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号