【教学课件】第九章属性(分类)数据分析.ppt

资源描述

《【教学课件】第九章属性(分类)数据分析.ppt》由会员分享，可在线阅读，更多相关《【教学课件】第九章属性(分类)数据分析.ppt（46页珍藏版）》请在三一办公上搜索。

1、第九章属性（分类）数据分析,9.1 属性数据及其分析9.2 SAS中的属性数据分析,9.1 属性数据及其分析9.1.1 属性数据分析与列联表9.1.2 属性变量关联性分析9.1.3 属性变量关联度计算9.1.4 有序变量关联性分析,9.1.1 属性数据分析与列联表1.属性变量与属性数据分析从变量的测量水平来看分为两类：连续变量和属性(Categorical)变量，属性变量又可分为有序的(Ordinal)和无序的变量。对属性数据进行分析，将达到以下几方面的目的：1)产生汇总分类数据列联表；2)检验属性变量间的独立性(无关联性)；3)计算属性变量间的关联性统计量；4)对高维数据进行分层分析和建

2、模。,2.列联表列联表（contingency table）是由两个以上的属性变量进行交叉分类的频数分布表。例如一个集团公司在四个不同的区域设有分公司，现该集团公司欲进行一项改革，此项改革可能涉及各分公司的利益，故采用抽样调查方法，从四个分公司共抽取420个样本单位，了解职工对此项改革的看法，调查结果如表9-1所示。,表9-1 关于改革方案的调查结果（单位：人）表中的行(row)是态度变量，这里划分为两类：赞成改革方案或反对改革方案；表中的列(column)是单位变量，这里划分为四类，即四个分公司。表9-1所示的列联表称为24表。,交叉表的基本形式如图9-1所示。这是一张具有r行和c列的一般

3、列联表，称它为rc表。其中，第i行第j列的单元表示为单元ij。交叉表常给出在所有行变量和列变量的组合中的观测个数。表中的总观测个数用n表示，在单元ij中的观测个数表示为nij，称为单元频数。,9.1.2 属性变量关联性分析对于不同的属性变量，从列联表中可以得到它们联合分布的信息。但有时还想知道形成列联表的行和列变量间是否有某种关联性，即一个变量取不同数值时，另一个变量的分布是否有显著的不同，这就是属性变量关联性分析的内容。属性变量关联性检验的假设为H0：变量之间无关联性；H1：变量之间有关联性由于变量之间无关联性说明变量互相独立，所以原假设和备择假设可以写为：H0：变量之间独立；H1：变量

4、之间不独立,1.2检验在双向表的情形下，如果行变量与列变量无关联性的原假设H0成立，则列联表中各行的相对分布应近似相等，即（j=1，2，c）或（j=1，2，c）其中mij称为列联表中单元ij在无关联性假设下的期望频数，而nij是单元ij的观测频数。,为了检验无关联性，将观测的单元频数与无关联的原假设为真时单元的期望频数进行比较。一个通常使用的检验是2检验。2统计量为：在H0成立的条件下，当观测数据较大时，2统计量的分布近似服从自由度为(r-1)(c 1)的2分布。,由于2分布是一种连续性分布，而属性数据是不连续的，故上式只是一个近似计算公式。计算出来的2值往往偏大，相应的p值偏小，从而人为地

5、增加了犯第一类错误的机会。为纠正这种偏性，可采用校正2，用C2表示。注：通常要求2检验应满足的条件是：n40且所有单元的期望频数均不小于5。2校正的条件：n40但有单元的期望频数小于5。,2.Fisher精确检验 Fisher精确检验建立在概率论中超几何分布的基础上，对于单元频数小的列联表来说，它是特别合适的。Fisher精确检验计算在H0成立的条件下，当总频数和边缘频数固定时，各种可能的表的超几何概率p之和对于双边检验，A是具有概率p小于或等于观测表概率的表的集合；对于左（右）边检验，A是这样一些表的集合，其中每个表的单元ij中频数小于（大于）或等于观测表中相应的频数。,9.1.3 属性变

6、量关联度计算1.系数系数是描述22表数据关联程度最常用的一种相关系数。其计算公式为：其中，2即2统计量。|的取值范围是在0 1之间，的绝对值越大，说明行变量与列变量的关联程度越高。=0，表示变量之间相互独立；|=1，表示变量之间完全相关，此时列联表某个方向对角线上的值全为0。当列联表r c中的行数r或列数c大于2时，系数将随着r或c变大而变大，且无上界。此时可用列联系数。,2.列联系数列联系数（Contingency coefficient）简称为c系数，主要用于大于22表的情况。c系数的计算公式为：c系数的取值范围：1 c 1，特别当r c表中两个变量相互独立时，c=0。c系数的最大值依

7、赖于列联表的行数和列数，且随着r或c变大而变大。例如，对于22表，c=0.7071；对于33表，c=0.8165；对于44表，c=0.87，等等。c系数的缺点是，根据不同行列的列联表计算出来的c系数不便比较。,3.V系数鉴于系数无上界、c系数小于1的不便，克莱默提出了V系数（Cramers V），其计算公式如下：其中min(r 1)(c 1)表示取(r 1)，(c 1)中较小的一个。V=0，表示两个变量相互独立，|V|=1，表示变量之间完全相关。,9.1.4 有序变量关联性分析对于数值变量，可以计算两两的相关系数。属性变量因为没有数值概念所以不能计算相关系数，但对于两个有序变量可以计算类似

8、于相关系数的关联性量度。用来度量有序变量关联程度的统计量有统计量、b统计量和c统计量等。这几个统计量均由以下定义的观测对一致或不一致的个数（即P和Q）来计算。设(A1,B1)和(A2,B2)是一对观测，若A1A2且B1B2，或A1A2且B1B2则称该对观测是不一致的。,用P表示所有观测对中一致对的个数，Q表示所有观测对中不一致对的个数。统计量(Gamma)的定义为：b统计量(Kendal Tau-b)的定义为：c统计量(Kendal Tau-c)的定义为：其中m=min(r，c)。这三个统计量的取值均在-1.0到1.0之间，值接近于1.0表示正关联，接近于-1.0表示负关联，等于0表示没有相关

9、关系。,9.2 SAS中的属性数据分析9.2.1 22表的分析9.2.2 r c表的分析9.2.3 分层列联表分析9.2.4 有序变量的关联性分析,9.2.1 22表的分析【例9-1】为了探讨吸烟与慢性支气管炎有无关系，调查了339人，情况如下：表9-2 吸烟与慢性支气管炎的关系调查表设想有两个随机变量：x表示吸烟与否，y表示患慢性支气管炎与否。检验吸烟与患慢性支气管炎有无关系，即检验x与y是否相互独立。数据集mylib.zqgy如图：原假设H0：x与y相互独立,表9-2中数据使用如下代码存入数据集mylib.bron，形式如图9-2所示。data mylib.bron;input x$y$n

10、umcell;label x=吸烟 y=慢性支气管炎;cards;吸烟患病 43 吸烟未患 162 不吸烟患病 13 不吸烟未患 121;Run;,1.分析步骤 1)在“分析家”中，打开数据集Mylib.bron；2)选择菜单：“Statistics”“Table Analysis”，打开“Table Analysis”对话框；,3)选中变量smoke，单击“Row”按钮，将其移到行变量框中；选中变量bron，单击按钮“Column”，将其移到列变量框中；选中变量numcell，单击按钮“Cell Counts”，将其移到单元格计数框中，如图所示；,4)为了使用2统计量检验变量的关联性

11、，单击“Statistics”按钮，打开“Table Analysis：Statistics”对话框，选中“Statistics”栏下的“Chi-square Statistics”复选框，如图9-4所示。图9-4“Table Analysis：Statistics”对话框单击“OK”按钮，返回。,5)为了在列联表中显示各种频数、百分数，单击“Tables（列联表）”按钮，打开“Table Analysis：Tables”对话框。选中“Frequencies（频数）”栏下的“Expected（期望）”复选框，取消“Percentages（百分数）”栏下的复选框，如图9-5所示。图9-5“Ta

12、ble Analysis：Tables”对话框两次单击“OK”按钮，得到分析结果。,2.结果分析列联表中列出了表格单元的观测频数（上一行）和在原假设下的期望频数（下一行），可以看出，吸烟人中患病的观测频数比期望频数大（图9-6所示），说明吸烟与患病又一定关系。,进一步检验的结果只要看后面（图9-7）统计量部分的Chi Square一行，其值为7.4688，p值为0.0063，所以应拒绝原假设，作出结论：吸烟与患慢性支气管炎是有关联的。当然，这个关联度不是很大，三个关联度系数均在0.15左右。对于两行两列的表格FREQ过程自动给出Fisher精确检验的结果，其双侧检验p值为0.0069，应拒

13、绝原假设。,9.2.2 r c表的分析【例9-2】一种原料来自三个不同的地区，原料质量被分成三个不同等级。从这批原料中随机抽取500件进行检验，结果如表9-3所示。要求检验各个地区和原料质量之间是否存在依赖关系。表9-3 原料抽样的结果,设表9-3数据已经存放在数据集mylib.yldj中，如图9-9所示。图9-9 数据集mylib.yldj 检验的原假设为H0：地区和原料等级之间是独立的(不存在依赖关系)。,1.分析步骤 1)在“分析家”中，打开数据集Mylib.yldj；2)选择菜单“Statistics”“Table Analysis”，打开“Table Analysis”对话框；3)选

14、中变量x，单击“Row”按钮，将其移到行变量框中；选中变量y，单击按钮“Column”，将其移到列变量框中；选中变量numcell，单击按钮“Cell Counts”，将其移到单元格计数框中，如图所示；,4)为了使用2统计量检验变量的关联性，单击“Statistics”按钮，打开“Table Analysis：Statistics”对话框，选中“Statistics”栏下的“Chi-square Statistics”复选框；考虑对列联表作Fisher精确检验，选中“Exact test”栏下的“Exact test for(r x c)table”复选框，如图所示。图9-11“Table A

15、nalysis：Tables”对话框单击“OK”按钮，返回。,5)为了在列联表中显示各种频数、百分数，单击“Tables（列联表）”按钮，打开“Table Analysis：Tables”对话框。选中“Frequencies（频数）”栏下的“Expected（期望）”复选框，取消“Percentages（百分数）”栏下的复选框，如图9-11所示。两次单击“OK”按钮，得到分析结果。,2.结果分析列联表（图9-12）中列出了表格单元的观测频数（上一行）和在原假设下的期望频数（下一行）。,进一步检验的结果要看（图左）统计量部分的Chi Square一行，其值为19.8225，p值为0.0005

16、，所以应拒绝原假设，作出结论：地区与原料等级是有关联的。这里的关联度系数取值分别是0.1991、0.1953、0.1408。图右给出Fisher精确检验结果，其双侧检验p值远小于0.05，也应拒绝原假设。,9.2.3 分层列联表分析【例9-3】对294人进行性别（sex）、饮酒（drink）与抑郁症（cases）关系的调查，结果见表9-4。要求检验三者之间是否存在关联性。表9-4 性别、饮酒与抑郁症关系的调查设表9-4的数据已经存放在数据集mylib.cesd中，形式如图9-15所示。,1.分析步骤 1)在“分析家”中，打开数据集Mylib.cesd；2)选择菜单“Statistics”“T

17、able Analysis”，打开“Table Analysis”对话框；,3)选中变量sex，单击“Row”按钮，将其移到行变量框中；选中变量cases，单击按钮“Column”，将其移到列变量框中；选中变量drink，单击按钮“Strata”，将其移到分层变量框中；选中变量numcell，单击按钮“Cell Counts”，将其移到单元格计数框中，如图所示；,4)单击“Select Tab（选择表）”按钮，打开“Table Analysis：Select Tab”对话框。在“Select tables(选择列联表或分层表)”选项区域中选择“SEX*CASES，DRINK*SEX*CASES

18、”两项，如图9-17所示。单击“OK”按钮返回。,5)单击“Statistics”按钮，打开“Table Analysis：Statistics”对话框，选中“Statistics”栏下的“Chi-square Statistics”复选框，如图左所示。单击“OK”按钮返回。6)单击“Tables”按钮，打开“Table Analysis：Tables”对话框。选中“Frequencies”栏下的“Expected”复选框，取消“Percentages”栏下的复选框，如图9-19所示。,2.结果分析结果分为三个部分：不论饮酒与否、只考虑饮酒者、只考虑不饮酒者。1)不论饮酒与否：列联表（图9-

19、20左）列出了表格单元的观测频数（上一行）和在原假设下的期望频数（下一行）。可以看出女性患抑郁症的频数大于期望频数，因此有可能女性比男性更易患抑郁症。,进一步检验的结果要看2检验与Fisher精确检验结果。由图看出2统计量的值为8.0815，p值为0.0045；Fisher精确检验的双侧检验p值为0.040，所以应拒绝原假设，作出结论：男女性别与患抑郁症与否是有关联的。但是，对于22表来说，这里的系数为-0.1658，说明性别与患抑郁症的关联度不是很大。,2)只考虑不饮酒者(Controlling for DRINK=不饮)：从列联表（图左）和检验统计量（图右）可以看出虽然女性患抑郁症的频数略

20、大于期望频数，但2统计量的值为0.1070，p值为0.7436；Fisher精确检验的双侧检验p值为1.0000，所以无法拒绝原假设，即对于不饮酒者来说，患抑郁症与性别因素无关联。,3)只考虑饮酒者(Controlling for DRINK=饮酒)：从列联表（图左）和检验统计量（图右）可以看出女性患抑郁症的频数大于期望频数，因此有可能女性比男性更易患抑郁症。,进一步检验的结果图9-22右看出2统计量的值为9.1649，p值为0.0025；Fisher精确检验的双侧检验p值为0.0027，所以应拒绝原假设，作出结论：对于饮酒者来说，男女性别与患抑郁症与否是有关联的，女性饮酒者更容易患抑郁症。,

21、9.2.4 有序变量的关联性分析【例9-4】研究奶牛种群大小与其患某种细菌性疾病的关系。牛的患病程度(disease)分为没有(0)、低(1)、高(2)，牛群大小(herdsize)分为小(1)、中(2)、大(3)。根据患病程度和牛群大小记录的九个类中动物的头数见表。表9-5 奶牛疾病与牛群大小的数据设表9-5的数据已经存放在数据集mylib.cows中，形式如图9-23所示。,1.分析步骤 1)在“分析家”中，打开数据集Mylib.cows；2)选择菜单“Statistics”“Table Analysis”，打开“Table Analysis”对话框；,3)选中变量herdsize，单击“

22、Row”按钮，将其移到行变量框中；选中变量disease，单击按钮“Column”，将其移到列变量框中；选中变量numcell，单击按钮“Cell Counts”，将其移到单元格计数框中，如图所示；,4)单击“Statistics（统计量）”按钮，打开“Table Analysis：Statistics”对话框，选中“Statistics”栏下的“Chi-square Statistics”与“Measures of association”复选框，如图9-25所示。单击“OK”按钮返回。,5)单击“Tables（列联表）”按钮，打开“Table Analysis：Tables”对话框。选中“Frequencies（频数）”栏下的“Expected（期望）”复选框，取消“Percentages（百分数）”栏下的复选框，如图9-26所示。两次单击“OK”按钮，得到分析结果。,2.结果分析列联表（图）列出了表格单元的观测频数（上一行）和在原假设下的期望频数（下一行）。从列联表中实际频数与期望频数的对比可以看出，小的种群患病比期望频数轻，大的种群患病比期望频数重，即患病程度与种群大小有正的关联。,2统计量的值为67.0411，p值为0.0001，所以应拒绝原假设，作出结论：患病程度与种群大小是有关联的。而且，这里的c系数达0.4280，说明患病程度与种群大小的关联度是相当大的。,

展开阅读全文