分类变量的分析.docx_三一办公31ppt.com

资源描述

《分类变量的分析.docx》由会员分享，可在线阅读，更多相关《分类变量的分析.docx（7页珍藏版）》请在三一办公上搜索。

1、分类变量的分析分类变量的分析一分类变量分类变量有有序变量、无序变量和二分类，其中有序和无序都是多分类举例说明，有序变量：高血压1期、II期、III期属于有序变量同时也属于等级资料，无序变量：汉族、回族、哈组；工人、农民、教师这样得属于无序变量，男性、女性；死亡、存活属于二分类变量。在分析方法中差别性检验中，二分类变量和无序变量都能用卡方检验，只不过一个是四格表卡方一个是RXC列联卡方，而有序变量也就是等级资料就得用秩和检验。在多元回归时，有序变量和二分类变量都是赋值1、2、3或0、1求得一个OR或RR值，而无序资料就必须要设置哑变量，例如职业工人、农民、教师。你计算得时候赋值为工人1、农

2、民=2、教师=3，如果你当成连续得变量去计算那么得到一个OR或RR值，解释为每增加一个等级发生某病得危险性增加多少倍。那么在无序变量就意味着工人增加一个等级，这是不可能的。因为这样得变量各等级之间不存在1、2、3得数学关系。在有序变量中，我们可以多元回归来检验假设，运用的原理时最小二乘法。在无序变量中，我们必须引用哑变量来实现logistic回归。在运用logistics回归分析之前我们必须先要理解虚拟变量。二下面的重点就是关于虚拟变量的讲解。 1虚拟变量的含义虚拟变量是用以反映质的属性的一个人工变量，取值为 0 或 1，通常记为 D,又可称之为属性变量、双值变量、类型变量、定性变量、或

3、二元型变量。如 1 男性 D = 0 女性但是，虚拟变量主要是用来代表质的因素，但有些情况下也可以用来代表数量因素。例如：在建立储蓄函数时，“年龄”是一个重要的解释变量。虽然“年龄”是一个数量因素，但为了方便也可以用虚拟变量表示。例如：可以把居民分为两个年龄组：第一组：2035岁的居民，第二组：3560岁的居民，用“1”表示第一年龄组；“0”表示第二年龄组，就可以估计年龄对储蓄的影响。 2.虚拟变量的设置规则 .两个属性的表示法 1Di=0如性别有两个属性：用 Di 表示。性引入一个变量即可！ (男)(女)即：两个属.多个属性的表示法。假设学历有四个属性：博士、硕士、本科、本科以下等，则

4、： D1=1(博士)(其他)1D2 =0(硕士)(其他)01D3=0(本科)(其他)四个属性3个变量。变量属性博士硕士本科 1 0 0 0 1 0 10 D2=0即:m个属性引入(m-1)个D1 D2 D3 变量即可 0 0 1 (男)0 (女)1(城市)D1=本科以下(农村)0 0 .多个因素各两个属性的表示法。如需要同时表示城乡差别和性别差别 D1 D2 1 0 1 0 城市男性 1 城市女性 1 农村男性 0 农村女性 0 2.分类变量的作用。 1.可以描述和测量定性因素的影响2.分离异常因素的影响，例如分析我国GDP的时间序列，必须考虑“文革”因素对国民经济的破坏性影响，剔除

5、不可比的“文革”因素。3.检验不同属性类型对因变量的作用例如工资模型中的文化程度、季节对销售额的影响。4.提高模型的精度 3.分类变量的建立模型。 A解释变量中只有虚拟变量。如：调查某地区性别与收入之间的关系，可以用模型表示如下： Yi =+Di + ui Yi代表收入，Di为虚拟变量 B.解释变量中既有虚拟变量又有定变量。如研究消费水平与居民收入的关系时，还要考虑城乡居民消费水平的差异，消费函数可设为： Yi=0+1Di+Xi+ ui Yi 为消费水平，Xi 为居民收入，Di为虚拟变量。假如还要考虑男女消费水平的差异，消费函数为： Yi =0+1D1i+2D2i+Xi+ui Yi 为消费水

6、平，Xi 为家庭收入，D1i和D2i为虚拟变量。 4.虚拟变量陷阱如某些商品的销售量有季节性，假设销售函数为： D1i+D2i+D3i+D4i=1当我们引入4个虚拟变量出现了完全多重共线性的问题! OLS不能使用!，这就是虚拟变量陷阱问题。所以对于具有m个属性的虚拟变量：若模型中含有截距项，引入 m-1个虚拟变量；若模型中不含有截距项，引入 m 个虚拟变量。三无序变量分析工具LOGISTIC 该法研究是当 y 取某值发生的概率与某暴露因素的关系。 P的取值波动01范围。基本原理：用一组观察数据拟合Logistic模型，揭示若干个x与一个因变量取值的关系，反映y 对x的依存关系。如图; n

7、它的图像是一条S型曲线，有下列特征：概率0pi=E(YiXi)1, 解决了条件概率有可能大于1或小于0的问题；当Xi+时，pi 1，当Xi-时， pi 0， pi随Xi变化而变化，且变化速率不是常数，更加符合实际情况对于这个方程我们应该了解到 1.变量的取值logistic回归要求应变量取值为分类变量自变量称为危险因素或暴露因素，可为连续变量、等级变量、分类变量。可有m个自变量X1， X2， Xm 一个自变量与Y关系的回归模型如：y：发生=1,未发生=0 x 有1=1无=0，记为p表示某暴露因素状态下，结果y=1的p(y=1/x)=1+exp-(b0+bx)概率模型通过取对数得到

8、 y=logit(p)=b+bx 011Plogit(p)=ln=b0+b1X1+b2X2+L+bmXm1-P注：就建立了线性关系。如果是多个变量的话，方程应为 0：暴露因素Xi=0时，个体发病概率与不发病概率之比P(y=1/x=0)ln= b0的自然对数比值。1-P(y=0/x=0) B1的含义：某危险因素，暴露水平变化时，即Xi=1与Xi=0相比，发生某结果优势比的对数值。 P1/(1-P1)lnOR=lnP0/(1-P0)=logitP1-logitP0=(b0+b1x1)-(b0+bx0)=b1x1P1的概率 P0的概率最后，参数检验：一般有似然比检验，比分检验Wald检验，在我们用SPSS分析数据后。会出现几个表，我们应该看懂这个表Variables in the OR=Podds11/(1-P1)=P0/(1-P0)odds0Equation 里面的东西。它含有wald：检验因子；df：自由度；sig：显著性检验；EXP：OR值。我们主要判断P值是否大于0小于0.05，若在这范围内，就表示有自变量和应变量是有关系的。

展开阅读全文