《区间估计和假设检验.ppt》由会员分享,可在线阅读,更多相关《区间估计和假设检验.ppt(89页珍藏版)》请在三一办公上搜索。
1、第三章 区间估计与假设检验,3.1 区间估计与假设检验的基本概念3.2 总体均值的区间估计与假设检验的SAS实现3.3 总体比例的区间估计与假设检验的SAS实现3.4 总体方差的区间估计与假设检验的SAS实现3.5 分布检验,3.1 区间估计与假设检验的基本概念3.1.1 区间估计3.1.2 假设检验,3.1.1 区间估计1.点估计和区间估计 参数的估计方法主要有两种:点估计和区间估计。点估计是用样本的观测值估计总体未知参数的值。由于样本的随机性,不同样本观测值计算得出的参数的估计值间存在着差异,因此常用一个区间估计总体的参数,并把具有一定可靠性和精度的估计区间称为置信区间。利用构造的统计量及
2、样本观测值,计算得出参数的置信区间的方法称为参数的区间估计。,2.参数的置信区间 在区间估计中,对于总体的未知参数,需要求出两个统计量1(X1,X2,.,Xn)和2(X1,X2,.,Xn)来分别估计总体参数的上限和下限,使得总体参数在区间(1,2)内的概率为P1 2=1 其中1 称为置信水平,而(1,2)称为的置信区间,1,2分别称为置信下限和置信上限。置信水平为1 的含义是随机区间(1,2)以1 的概率包含了参数。,3.正态总体均值和方差的置信区间 参数的区间估计大多是对正态总体的参数进行估计,如对单总体均值、方差的估计、两总体均值差的估计和两总体方差比的估计等。正态总体参数的各种置信区间见
3、表3-1。,正态总体参数的各种置信区间见表3-1。,其中,4.总体比例与比例差的置信区间 实际应用中经常需要对总体比例进行估计,如产品的合格率、大学生的就业率和手机的普及率等。记和P分别表示总体比例和样本比例,则当样本容量n很大时(一般当nP和n(1 P)均大于5时,就可以认为样本容量足够大),样本比例P的抽样分布可用正态分布近似。总体比例与比例差的置信区间如表3-2所示。,3.1.2 假设检验1.假设检验的基本原理 对总体参数进行假设检验时,首先要给定一个原假设H0,H0是关于总体参数的表述,与此同时存在一个与H0相对立的备择假设H1,H0与H1有且仅有一个成立;经过一次抽样,若发生了小概率
4、事件(通常把概率小于0.05的事件称为小概率事件),可以依据“小概率事件在一次实验中几乎不可能发生”的理由,怀疑原假设不真,作出拒绝原假设H0,接受H1的决定;反之,若小概率事件没有发生,就没有理由拒绝H0,从而应作出拒绝H1的决定。,2.假设检验的步骤 1)根据问题确立原假设H0和备选假设H1;2)确定一个显著水平,它是衡量稀有性(小概率事件)的标准,常取为0.05;3)选定合适的检验用统计量W(通常在原假设中相等成立时,W的分布是已知的),根据W的分布及的值,确定H0的拒绝域。4)由样本观测值计算出统计量W的观测值W0,如果W0落入H0的拒绝域,则拒绝H0;否则,不能拒绝原假设H0。,注意
5、:在SAS系统中,是由样本观测值计算出统计量W的观测值W0和衡量观测结果极端性的p值(p值就是当原假设成立时得到样本观测值和更极端结果的概率),然后比较p和作判断:p,拒绝原假设H0;p,不能拒绝原假设H0。,p值通常由下面公式计算而得到。p=P|W|W0|=2 P W|W0|(拒绝域为两边对称的区域时)p=minPW W0,PW W0(拒绝域为两边非对称区域时)p=PW W0(拒绝域为右边区域时)p=PW W0(拒绝域为左边区域时)只需根据SAS计算出的p值,就可以在指定的显著水平下,作出拒绝或不能拒绝原假设的决定。,3.正态总体均值和方差的假设检验 对正态总体的参数进行假设检验是假设检验的
6、重要内容,如对单总体均值、方差的检验、两总体均值之差的检验和两总体方差比的检验等。正态总体参数的各种检验方法见下表3-3至表3-5。表3-3 单正态总体N(,2)均值的检验法,表3-4 单正态总体N(,2)方差2的检验法,或,表3-5 两正态总体的均值差与方差比的检验,4.总体比例与比例差的检验 当样本容量n很大时,可根据表3-6对总体比例与比例差进行假设检验。表3-6 总体比例与比例差的检验,3.2 总体均值的区间估计与假设检验的SAS实现3.2.1 使用INSIGHT模块3.2.2 使用“分析家”3.2.3 使用TTEST过程,3.2.1 使用INSIGHT模块1.总体均值的区间估计【例3
7、-1】某药材生产商要对其仓库中的1000箱药材的平均重量进行估计,药材重量的总体方差未知,随机抽取16箱样本称重后结果如表3-7所示。表3-7 16箱药材重量(单位:千克)设药材重量数据存放于数据集Mylib.yczl中,其中重量变量名为weight。求该仓库中每箱药材平均重量在95%置信水平下的置信区间。,步骤如下:1)启动INSIGHT模块,并打开数据集Mylib.yczl;2)选择菜单“Analyze”“Distribution(Y)”;3)在打开的“Distribution(Y)”对话框中进行区间估计的设置(如图)。,结果包括一个名为“95Confidence Intervals(95
8、%置信区间)”的列表,表中给出了均值、标准差、方差的估计值(Parameter)、置信下限(LCL)和置信上限(UCL),如图3-2所示。结果表明,根据抽样样本,该仓库中药材的平均重量以95%的可能性位于50.08千克至52.92千克之间。,2.单样本总体均值的假设检验【例3-2】一家食品厂以生产袋装食品为主,每天的产量大约为8000袋,每袋重量规定为100克。为了分析每袋重量是否符合要求,质检部门经常进行抽检。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如表3-8所示。表3-8 25袋食品的重量(单位:克)试从抽检的样本数据出发,检验变量WEIGHT的均值与100克是否有显著差异。
9、假定表3-8数据存放在数据集Mylib.spzl中,重量变量名为WEIGHT。,设变量WEIGHT的均值为,问题是希望通过样本数据检验变量WEIGHT均值的如下假设:H0:=100,H1:100。使用INSIGHT对均值进行检验的步骤如下:1)首先启动INSIGHT,并打开数据集Mylib.spzl;2)选择菜单“Analyze”“Distribution(Y)”;3)在打开的“Distribution(Y)”对话框中选定分析变量WEIGHT;4)单击“OK”按钮,得到变量的描述性统计量;,5)选择菜单“Tables(表)”“Tests for Location(位置检验)”;在弹出的“Tes
10、ts for Location”对话框中输入100,单击“OK”按钮得到输出结果如图所示。,结果显示,观测值不等于100克的观测有24个,其中19个观测值大于100。图中第一个检验为t检验(Students t),需要假定变量服从正态分布,检验的p值为0.0105,这个检验在0.05水平下是显著的,所以可认为均值与100克有显著差异。第二个检验(Sign)是叫做符号检验的非参数检验,其p值为0.0066,在0.05水平下也是显著的,结论不变。第三个检验(Sgned Rank)是叫做符号秩检验的非参数检验,其p值为0.0048,在0.05水平下是显著的,结论不变。,3.两样本总体均值的比较:成对
11、匹配样本 在INSIGHT中比较成对样本均值是否显著差异,可以计算两变量的差值变量,再检验差值变量的均值是否显著为0。【例3-3】由10名学生组成一个随机样本,让他们分别采用A和B两套试卷进行测试,结果如表3-9所示。表3-9 10名学生两套试卷的成绩试从样本数据出发,分析两套试卷是否有显著差异。,步骤如下:1)首先生成差值变量:启动INSIGHT,并打开数据集Mylib.sjdf。选择菜单“Edit”“Variables”“Other”,打开“Edit Variables”对话框,选择A为Y变量,B为X变量,然后选择变换(Transformation):Y X,如图,生成新的差值变量d;,2
12、)然后对变量d的均值做如下假设:H0:d=0,H1:d 0。3)选择菜单“Analyze”“Distribution(Y)”;在打开的“Distribution(Y)”对话框中选定分析变量:选择变量差值d,单击“Y”按钮,将变量d移到右上方的列表框中;4)单击“Output”按钮,在打开的对话框中选中“Tests for Location(位置检验)”复选框;5)两次单击“OK”按钮,得到变量的描述性统计量;,6)选择菜单“Tables(表)”“Tests for Location(位置检验)”;在弹出的“Tests for Location”对话框中输入0,单击“OK”按钮得到输出结果如图所
13、示。结果显示三个检验的结论都是p值小于0.05,所以应拒绝原假设,即总体的均值与0有显著差异。所以两套试卷有显著差异。虽然SAS给出三个检验结果,其实作结论时只需其中一个。如果可以认为分析变量服从正态分布只要看t检验结果;否则只须看符号秩检验结果。只有在数据为两两比较的大小结果而没有具体数值时符号检验才有用。,3.2.2 使用“分析家”1.总体均值的置信区间【例3-4】在“分析家”中求例3-1中每箱药材平均重量在95%置信水平下的置信区间。步骤如下:1)在“分析家”模块中打开数据集Mylib.yczl;2)选择菜单“Statistics(统计)”“Hypothesis Tests(假设检验)”
14、“One Sample t test for a Mean(单样本均值t-检验)”;3)在打开的“One Sample t test for a Mean”对话框中设置均值的置信区间(如图3-6)。,3)在打开的“One Sample t test for a Mean”对话框中设置均值的置信区间(如图3-6)。结果表明(下图),根据抽样样本,该仓库中药材的平均重量以95%的可能性位于50.08千克至52.92千克之间。,2.单样本总体均值的假设检验【例3-5】使用“分析家”检验例3-2中食品重量是否符合要求。希望通过样本数据检验变量WEIGHT均值的如下假设:H0:=100,H1:100。由
15、于此时的方差未知,所以使用t检验法。步骤如下:1)在“分析家”中打开数据集Mylib.spzl;2)选择菜单“Statistics(统计)”“Hypothesis Tests(假设检验)”“One Sample t test for a Mean(单样本均值t-检验)”,打开“One Sample t test for a Mean”对话框;,4)按图3-8所示设置均值检验,单击“OK”按钮,得到结果如图左所示。;显示结果(图右)表明t统计量的p值为0.01050.05,所以拒绝原假设,即认为总体的均值不等于100。,3.两样本总体均值的比较:成对匹配样本【例3-6】使用“分析家”对例3-3中
16、两套试卷检验有无显著差异。这是一个(成对匹配)双样本均值检验问题,若1和2分别表示两套试卷的平均成绩,则检验的是:H0:1 2=0,H1:1 2 0;分析步骤如下:1)在“分析家”中打开数据集Mylib.sjdf;2)选择菜单“Statistics(统计)”“Hypothesis Tests(假设检验)”“Two Sample Paired t-Test for a Mean(均值的成对双样本t-检验)”;,3)在打开的“Two Sample Paired t-Test for a Mean”对话框中,按图左所示设置双样本均值检验,单击“OK”按钮,得到结果如图右所示 结果显示,无论两总体的方
17、差是否相等,t统计量的p值=0.0005 0.05,所以在95%的置信水平下,拒绝原假设,两总体的均值有显著差异。结果表明可以95%的把握认为两套试卷有显著差异。,4.两样本总体均值的比较:独立样本【例3-7】为估计两种方法组装产品所需时间的差异,分别对两种不同的组装方法各随机安排一些个工人进行操作试验,每个工人组装一件产品所需的时间如表3-10所示。试以95%的置信水平推断两种方法组装产品所需平均时间有无差异。表3-10 两种方法组装产品所需的时间(单位:分钟)这是一个(独立)两样本均值检验问题,若1和2分别表示两种方法组装一件产品所需的平均时间,则检验的是:H0:1 2=0,H1:1 2
18、0;,假定表3-10数据存放在数据集Mylib.zzcpsj中,将两个样本中被比较均值的变量的观测值记在同一分析变量F下,不同的样本用一个分类变量g的不同值加以区分,而且分类变量g只能取两个值,否则无法进行。分析步骤如下:1)在“分析家”中打开数据集Mylib.zzcpsj;2)选择菜单“Statistics(统计)”“Hypothesis Tests(假设检验)”“Two Sample t-Test for Mean(两样本均值的t-检验)”;,3)在打开的“Two Sample t-Test for a Mean”对话框中,按图3-12所示设置双样本均值检验,单击“OK”按钮,得到结果如图
19、3-13所示 结果显示,由于t统计量的p值=0.0433,所以在95%的置信水平下,应该拒绝原假设,即两种方法所需时间有差异。表明有95%的把握认为两种方法所需时间有差异。,3.2.3 使用TTEST过程TTEST过程可以执行单样本均值的t检验、配对数据的t检验以及双样本均值比较的t检验。1.语法格式PROC TTEST;CLASS;VAR;PAIED;BY;RUN;其中,PROC TTEST和RUN语句是必须的,其余语句都是可选的,而且可调换顺序。,CLASS语句所指定的分组变量是用来进行组间比较的;而BY语句所指定的分组变量是用来将数据分为若干个更小的样本,以便SAS分别在各小样本内进行各
20、自独立的处理。VAR语句引导要检验的所有变量列表,SAS将对VAR语句所引导的所有变量分别进行组间均值比较的t检验。,PAIED语句用来指定配对t检验中要进行比较的变量对,其后所带的变量名列表一般形式及其产生的效果见表3-11。表3-11 选项及其含义,PROC TTEST语句后可跟的选项及其表示的含义如表3-12所示。表3-12 选项及其含义,2.总体均值的置信区间【例3-8】仍然考虑例3-3中的样本数据。假定其中数据使用如下数据步存放在数据集sjcj中,两套试卷得分的变量名分别为A和B。data sjcj;input A B;cards;78 71 63 44 72 61 89 84 91
21、 7449 51 68 55 76 60 85 77 55 39;run;,【例3-8】仍然考虑例3-3中的样本数据。假定其中数据使用如下数据步存放在数据集sjcj中,两套试卷得分的变量名分别为A和B。使用最简代码求均值、标准差的置信区间:proc ttest data=sjcj;run;代码运行结果给出两个变量在95%置信水平下的均值、标准差的置信区间,以及对原假设0=0所作的t检验的p值,如图所示。,3.单样本总体均值的假设检验 在例3-8中增加原假设选项以及置信水平,代码如下:proc ttest h0=70 alpha=0.01 data=sjcj;var A;run;代码运行结果除了
22、给出变量A在99%置信水平下的均值、标准差的置信区间外,还给出对假设0=70,所作的t-检验的p值,如图3-15所示。结果显示t统计量的p值=0.5734,不能拒绝(57.34%的把握)原假设:均值=70。,4.配对两样本均值的假设检验 在例3-8中检验两套试卷有无显著差异,代码如下:proc ttest data=sjcj;paired A*B;run;代码运行结果给出了对原假设1 2=0所作的t检验的p值,如图3-16所示。结果显示t统计量的p值=0.0005 0.05,因此拒绝原假设。说明两套试卷有显著差异。,5.独立两样本均值的假设检验 过程TTEST还可以用于进行独立双样本均值比较的
23、t检验法。它的用法为PROC TTEST DATA=;CLASS;VAR;RUN;使用这一格式要求将两个样本中被比较均值的变量的观测值记在同一分析变量下,不同的样本用另一个分类变量的不同值加以区分,而且分类变量只能取两个值,否则将报错。,【例3-9】仍然考虑例3-7中的样本数据。假定其中数据使用如下数据步存放在数据集zzcpsj中:data zzcpsj;input f g$;cards;28.3 1 27.6 2 30.1 1 22.2 2 29 1 31 237.6 1 33.8 2 32.1 1 20 2 28.8 1 30.2 236 1 31.7 2 37.2 1 26 2 38.5
24、 1 32 234.4 1 31.2 2 28 1 30 1;run;,将两批工人的测量结果看作两个样本,但其数据都放在一个数据集之中,所需的时间值是记录在同一分析变量f之下,而两种方法的差别是由变量g的值加以区分的,所以g可作为分类变量。检验代码如下:proc ttest data=zzcpsj;class g;var f;run;检验结果如图所示。,在检验中,先看其最后关于方差等式的检验结果,检验方差相等是用的F 统计量,其数值为1.29,相应的p值为0.67790.05=,所以不能拒绝方差相等的假设。在方差相等的前提下,检验均值差异使用Pooled方法,对应统计量的t值为2.16,相应的
25、p值为0.04330.05=,所以两种方法所需的时间是有显著差异的。在异方差的情况下,使用Satterthwaite法检验均值的差异。,3.3 总体比例的区间估计与假设检验的SAS实现3.3.1 总体比例的置信区间3.3.2 单样本总体比例的假设检验3.3.3 两总体比例的比较,3.3.1 总体比例的置信区间【例3-10】2004年底北京市私家车拥有量已达到129.8万辆,位居全国之首,据业内人士分析其中国产中低档汽车的比例较大,为了估计目前北京市场个人购车的平均价格,调查人员于某日在北京最大的车市随机抽取36位私人消费购车者,得到他们所购汽车的价格,见下表。表3-13 年底购车价格(单位:万
26、元)根据以上调查数据,试以95的置信水平推断该地区购买私家车在15万元以上的消费者占有的比例。,设购车价格数据存放在数据集Mylib.gcjg中,价格变量名为price。这是一个单样本比例的区间估计问题。由于在SAS中只能对两水平的分类变量作比例的区间估计与检验,所以首先要按变量price生成一个新的分类变量。步骤如下:1)在“分析家”中打开数据集Mylib.gcjg;2)选择主菜单“Edit(编辑)”“Mode(模式)”“Edit(编辑)”,使数据集可以被编辑(修改);,3)选择主菜单“Data(数据)”“Transform(变换)”“Recode Ranges(重编码范围)”,打开“Rec
27、ode Ranges Information”对话框并按图3-18(左)设置有关内容;4)单击“OK”按钮,打开“Recode Ranges”对话框,按图3-18右所示生成新变量price_f;,6)选择菜单“Statistics(统计)”“Hypothesis Tests(假设检验)”“One Sample Test for a Proportion(单样本比例检验)”;7)在打开的“One Sample Test for a Proportion”对话框中,按图3-19设置比例的置信区间。,分析结果中包括变量的置信区间:按95%的置信水平变量price取值为“15”的比例在区间(0.109
28、,0.391)范围中(如图3-20),即可以95%的概率估计该地区所购买车辆在15万元以上的消费者所占比例在10.9%39.1%之间。,3.3.2 单样本总体比例的假设检验【例3-11】考虑例3-10中的数据,试检验总体中购买车辆在15万元以上者所占比例是否超过30%。这是一个单样本比例检验问题,若表示总体中购买车辆在15万元以上者所占比例,则检验的是:H0:0.3,H1:0.3;,步骤如下:1)选择菜单“Statistics”“Hypothesis Tests”“One Sample Test for a Proportion”,打开并按图左设置“One Sample Test for a
29、Proportion”对话框;检验结果如图右所示。,显示的结果表明样本中购买车辆在15万元以上者的比例为25%,检验用的Z统计量的p值为0.2563 0.05,所以不能拒绝原假设。结果表明购买车辆在15万元以上者所占比例在95%的置信水平下超过30%。,3.3.3 两总体比例的比较【例3-12】2004年底很多类型的国产轿车价格都比年中有所下降,为了对比2004年底与年中私家购车族购车价格的差异,在年中新购车者中随机抽取32人,调查得到的价格数据如表3-14。表3-14 年中购车价格(单位:万元):综合表3-13与表3-14的调查数据,试以95的置信水平推断该地区年底与年中购买私家车在15万元
30、以上的消费者占有比例有无差异。,这是一个双样本比例检验问题,若1和2分别表示总体中年底和年中购买私家车在15万元以上的消费者所占的比例,则检验的是假设:H0:1 2=0,H1:1 2 0;,首先将3-7与表3-8的调查数据存入一个数据集Mylib.gcjgQ中,价格变量名为price,使用变量period以区别年中数据(2)与年底数据(1)。按例3-10中的步骤由price生成两水平分类变量price_F。图3-23所示即为数据集Mylib.gcjgQ中的部分数据。,然后,对上面假设进行检验,步骤如下:1)在分析家中打开数据集Mylib.gcjgQ后,选择菜单“Statistics”“Hypo
31、thesis Tests”“Two Sample Test for Proportion(双样本比例检验)”,在对话框中,按图左设置双样本比例检验,分析结果如图右所示。结果显示,由于Z统计量的p值为0.5664,所以在95%的置信水平下,不能拒绝原假设。即该地区2004年底与年中私家购车价格在15万元以上者所占比例无明显差异。,3.4 总体方差的区间估计与假设检验的SAS实现3.4.1 总体方差的置信区间3.4.2 单样本总体方差的假设检验3.4.3 两样本总体方差的比较,3.4.1 总体方差的置信区间【例3-13】表3-15所示为某中学1980年模拟高考数学的部分学生成绩,试估计本次模拟考试
32、成绩的方差。表3-15 部分学生成绩 假定表3-15数据存放在数据集Mylib.kscj中,成绩变量名为score。分析步骤如下:1)在“分析家”中打开数据集Mylib.kscj;2)选择菜单“Statistics(统计)”“Hypothesis Tests(假设检验)”“One Sample Test for a Variance(方差的单样本检验)”;,3)在打开的“One Sample Test for a Variance”对话框中设置方差的置信区间(如图3-26)。分析结果中包括方差的置信区间估计,如图3-27所示。结果表明,本次模拟考试成绩方差在置信水平95%下的置信区间为(7.1
33、692,28.614)。,3.4.2 单样本总体方差的假设检验【例3-14】考虑例3-13中的模拟考试成绩,检验考试成绩是否太集中。这是一个单样本方差检验问题,若表示总体方差,则检验的是:H0:2 52,H1:2 52;步骤如下:1)选择菜单“Statistics”“Hypothesis Tests”“One Sample Test for a Variance(单样本方差检验)”,打开“One Sample Test for a Variance”对话框并按图设置;2)单击“OK”按钮,得到结果。,结果(图左)显示,样本方差为12.732,由于2检验的p值=0.9504,所以不能拒绝方差 2
34、5的原假设。结果表明有95%的把握可以认为该模拟考试的成绩太过集中。,3.4.3 两样本总体方差的比较【例3-15】已知两只股票深发展(000001)和万科A(000002)在2004年6月21个交易日的收益率如表3-16所示。试在0.05的显著水平下判断深发展的风险是否高于万科A?表3-16 深发展和万科A在2004年6月21个交易日的收益率,这是一个双样本方差检验问题,若1和2分别表示深发展和万科A两只股票收益率的方差,则检验的是:H0:1 2,H1:1 2;检验步骤如下:1)首先,将表3-8中的数据生成数据集mylib.gupiao,深发展和万科的收益率可以用同一变量表示,另加一个分类变
35、量以区别;也可用两个变量表示,如分别用s和w表示。本例用第二种方法。,2)在分析家中打开数据集mylib.gupiao后,选择菜单“Statistics”“Hypothesis Tests”“Two-Sample Test for Variance(双样本方差检验)”,打开“Two-Sample Test for Variance”对话框并按图左设置;单击“OK”按钮,得到分析结果。结果显示(图右),在0.05的显著性水平下不能拒绝原假设,说明深发展的股票风险要高于万科A。,3.5 分布检验3.5.1 数据的分布研究3.5.2 在INSIGHT模块中研究分布3.5.3 在“分析家”中研究分布3
36、.5.4 使用UNIVARIATE过程,3.5.1 数据的分布研究1.分布拟合图 由于密度直方图中矩形的面积是数据落入对应区间中的频率,根据大数定理,数据量很大时,频率近似于概率。所以,如果数据来自一个具有概率密度f(x)的连续型随机变量,密度直方图就可以作为概率密度f(x)的一个估计。,直方图顶端的形态为折线,而常用的一些分布的密度曲线如正态分布等都是光滑曲线,所谓分布拟合图就是在限定的参数分布类中通过对参数的估计,用估计得到的参数所对应的密度曲线去拟合直方图顶部的形态。图3-31所示为分布拟合图,左图为正态分布拟合图,右图为对数正态分布拟合图。,在SAS系统中提供的参数分布类型有:正态(N
37、ormal)分布最为常用的分布、对数正态(Lognormal)分布、指数分布、Gamma分布、Weibull分布,它们的分布密度分别为:1)参数为(,)的正态分布 2)参数为(,)的对数正态分布,3)参数为(,)的指数分布的密度为 4)参数为(,c,)的指数分布的密度为 5)参数为(,)的Gamma分布的密度为 6)参数为(,c,)的Weibull分布的密度为,2.QQ图 不论密度直方图还是分布拟合图,要从图上鉴别数据的分布是否近似于某种类别的分布是较困难的。QQ图可以帮助我们方便地鉴别数据的分布是否近似于某种类型的分布。QQ图是一种散点图。对应于正态分布的QQ图由点 构成,其横坐标为标准正态
38、分布的分位数,纵坐标x(i)(i=1,2,n)是将x1,xn从小到大排序后的数列,为总体i/n分位点的估计。若观测数据近似正态分布N(,2),则QQ图上这些点近似在直线y=x+附近。,图3-32所示为居民家庭收入情况的QQ图,分别为对应于正态分布与对数正态分布的QQ图。要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,该直线的斜率为标准差,截距为均值。同样,也可以作对应于对数正态分布、指数分布、Gamma分布、Weibull分布的QQ图,以鉴别样本数据是否来自某一类型的总体分布。,3.5.2 在INSIGHT模块中研究分布1.绘制分布拟合图【例3-16】在
39、INSIGHT模块中绘制居民家庭收入情况(参见例2-1)的分布拟合图。选择菜单“Analyze”“Distribution(Y)”,打开“Distribution(Y)”对话框并按如图3-33所示设置。,图3-34 参数估计对话框与income变量的密度拟合图变量Income的密度拟合图和参数密度估计如图3-34右与图3-35所示。图3-35 income变量的参数密度估计,2.绘制QQ图 如果在图3-33右所示的“Distribution(Y)”对话框中选中“Normal QQ Plot(正态QQ图)”复选框,如图左所示,则可以得到QQ图,如图右所示。,选择菜单“Curves(曲线)”“QQ
40、 Ref Line(QQ参考线)”,打开“QQ Ref Line”对话框。选择“Method(方法)”栏下的“Least Squares(最小二乘)”,如图左,单击“OK”按钮得到带参考线的QQ图(图右)。,选择菜单“Graphs(图形)”“QQ Plot(QQ图)”,打开“QQ Plot”对话框。选择“Distribution(分布)”栏下的“Lognormal QQ Plot(对数正态QQ图)”,如图左,单击“OK”按钮得到对数正态QQ图,如图右所示。虽然从分布拟合图中似乎得到居民家庭收入情况的样本数据接近于对数正态分布,但从QQ图可以看出,样本数据更接近于正态分布。,3.正态性检验 上述
41、结论是一种直观的检验,更为严格的检验如下所示。在INSIGHT中继续上述操作:选择菜单“Curves(曲线)”“Test for Distribution(分布检验)”,打开“Test for Distribution”对话框,如图左所示。单击“OK”按钮,得到变量income的经验分布和拟合的正态累计分布曲线图(图右)。,检验结果汇总在分布检验表(图)中,其中列举了拟合正态分布的均值2316.1000(即样本均值)和标准差697.6906(即样本标准差),并提供了Kolmogorov D统计量的数值0.1377,而相应的p值 0.15 0.05=,所以不能拒绝原假设,可以认为变量income
42、总体分布为正态分布。,3.5.3 在“分析家”中研究分布【例3-17】在“分析家”中研究例3-10例3-12中北京市场个人购车价格变量price的正态性。1.绘制分布拟合图和QQ图 首先在“分析家”中打开数据集Mylib.gcjg;选择主菜单“Statistics”“Descriptive”“Distributions”,打开“Distributions”对话框。,按图(上图)设置分析选项,三次单击“OK”按钮,得到直方图和QQ图如图(下图)所示。,2.分布检验 继续上述步骤。在分析家窗口的项目管理器中双击“Fitted Distributions of Gcjg”项,得到检验结果如图3-44
43、3-45所示。,年底数据的分布检验结果如图,其含义说明如下:其中第一部分为检验拟合分布的结果。首先指明拟合的是正态分布,均值为13.60556,标准差为5.170595;接着有三种经验分布的检验结果 三种检验基本上都认为变量price的分布与正态分布有差异,因此拒绝变量price为正态分布的假设。,年中数据的分布检验结果如图3-45所示。结果表明:均值为13.95031,标准差为5.234664;三种检验基本上都认为变量price的分布与正态分布无显著差异,因此不能拒绝变量price为正态分布的假设。综上,应拒绝年底数据中变量price的分布为正态分布的假设,而不能拒绝年中数据中变量price
44、的分布为正态分布的假设。,3.5.4 使用UNIVARIATE过程 在PROC UNIVARIATE语句中加上NORMAL选项可以进行正态性检验。【例3-18】检验例3-1药材仓库中的1000箱药材的重量是否服从正态分布。使用如下UNIVARIATE过程:proc univariate data=Mylib.yczl normal;var weight;run;,【例3-18】检验例3-1药材仓库中的1000箱药材的重量是否服从正态分布。结果(部分)如图3-46所示。这里给出了weight变量的四种正态性检验结果,其中Shapiro-Wilk检验是首选的。可以看到p值很大,所以在0.05水平下不能拒绝原假设,即认为weight服从正态分布。,