自变量中含有定性变量的回归分析.ppt

上传人:小飞机 文档编号:5822038 上传时间:2023-08-23 格式:PPT 页数:26 大小:431.50KB
返回 下载 相关 举报
自变量中含有定性变量的回归分析.ppt_第1页
第1页 / 共26页
自变量中含有定性变量的回归分析.ppt_第2页
第2页 / 共26页
自变量中含有定性变量的回归分析.ppt_第3页
第3页 / 共26页
自变量中含有定性变量的回归分析.ppt_第4页
第4页 / 共26页
自变量中含有定性变量的回归分析.ppt_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《自变量中含有定性变量的回归分析.ppt》由会员分享,可在线阅读,更多相关《自变量中含有定性变量的回归分析.ppt(26页珍藏版)》请在三一办公上搜索。

1、,线性回归模型的基本假定误差为独立正态分布的随机变量,其均值为零且方差相等(1)误差项的数学期望为0,表明估计的回归方程中不存在系统性误差(Systematic Error);(2)各误差项的方差相等;(3)各误差项之间的协方差为0;以上三项基本假定一般又称为Gauss-Markov高斯-马尔柯夫条件。(4)自变量与误差项之间的协方差为0,不存在多重共线性;(5)自变量的样本容量必须大于自变量的项数加1。,多元回归中的几种重要模型,第一部分:多重共线情况的处理第3章 岭回归分析(Ridge Regression)第二部分:自变量中含定性变量的处理第4章 自变量中含有定性变量的回归分析第三部分:

2、因变量中含有定性变量情况的处理第5章 二项Logistic回归第6章 多项Logistic回归第7章 有序回归(等级回归分析)第8章 Probit回归(概率单位回归)第9章 最佳尺度回归本章总结,第4章 自变量中含有定性变量的回归分析,4.1 只有一个虚拟变量的回归4.2 含有多个虚拟变量的回归4.3 分段回归,第4章 自变量中含有定性变量的回归分析,在社会经济研究中,由许多定性变量,比如地区、民族、性别、文化程度、职业和居住地等。可以应用它们的信息进行线性回归。但是,必须现将定性变量转换为虚拟变量((dummy variable)也称哑变量或定性变量),然后再将它们引入方程,所得的回归结果才

3、有明确的解释意义。只取0和1两个值的变量称为虚拟变量。对于具有k类的定性变量来说,设虚拟变量时,我们只设k-1个虚拟变量。,回归模型中使用虚拟自变量时,称为虚拟自变量的回归当虚拟自变量只有两个水平时,可在回归中引入一个虚拟变量比如,性别(男,女)一般而言,如果定性自变量有k个水平/类别,需要在回归中模型中引进k-1个虚拟变量,如果引入k个虚拟变量将会产生完全多重共线性问题(称为虚拟变量陷阱),虚拟变量作为解释变量引入模型有两种基本方式:加法方式和乘法方式。(1)加法方式引进虚拟变量建立回归方程:E(Y)=0+1x1+2x2+3x3(加法公式)0家电制造业投诉次数的平均值(0+1)零售业投诉次数

4、的平均值(0+2)旅游业投诉次数的平均值(0+3)航空公司投诉次数的平均值,例:考虑个人保健支出对个人收入和教育水平的回归。教育水平考虑三个层次:高中以下,高中,大学及其以上这时需要引入两个虚拟变量:,模型可设定如下:,高中以下:,E(Yi|Xi,D1i=0,D2i=0)=0+1Xi,高中:,大学及其以上:,E(Yi|Xi,D1i=1,D2i=0)=(0+2)+1Xi,E(Yi|Xi,D1i=0,D2i=1)=(0+3)+1Xi,图1 不同教育程度人员保健支出示意图,有相同的斜率,但有不同的截距,(2)乘法方式斜率的变化例:根据消费理论,消费水平C主要取决于收入水平X。但在一个较长的时期,人们

5、的消费倾向会发生变化,尤其是在自然灾害、战争等反常年份,消费倾向往往出现变化。这种消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。,则消费模型可建立如下:,这里,虚拟变量 Dt 以与 Xt 相乘的方式引入了模型中,从而可用来考察消费倾向的变化。,在E(t)=0的假定下,上述模型所表示的函数可化为:,正常年份:,反常年份:,图2 不同年份消费倾向示意图,如果在模型中同时使用加法和乘法两种方式引入虚拟变量,则回归线的截距和斜率都会改变。,例如:,对于改革开放前后储蓄-收入模型,可设定为,其中,Y为储蓄,X为收入,Dt为虚拟变量,Dt=,1 改革开放以后0 改革开放以前,显然在上式中,同时使用

6、加法和乘法两种方式引入了虚拟变量。,在E(t)=0的假定下,上述模型所表示的函数可化为:,改革开放以前:,E(Yt|Xt,Dt=0)=0+1Xt,改革开放以后:,E(Yt|Xt,Dt=1)=(0+1)+(1 2)Xt,则其几何图形如图3所示。,例如:,家庭教育经费支出不仅取决于其收入,而且与年龄因素有关。,按年龄划分为三个年龄组:618岁年龄组(中小学教育);1922岁年龄组(大学教育);其它年龄组。于是设定虚拟变量,则家庭教育经费支出模型可设定为,其中,Yi是第i个家庭的教育经费支出;Xi是第i个家庭的收人;虚拟变量D1i、D2i分别表示第i家庭中是否有618岁和1922岁的成员。,数值变量

7、作为虚拟变量引入:有些变量虽然是数量变量,即可以获得实际观测值,但在某些特定情况下把它选取为虚拟变量则是方便的,以虚变量引入计量经济学模型更加合理。,譬如年龄因素虽然可以用数字计量,但如果将年龄作为资料分组的特征,则可将年龄选作虚拟变量。,虚拟变量交互效应分析当分析解释变量对变量的影响时,大多数情形只是分析了解释变量自身变动对被解释变量的影响作用,而没有深入分析解释变量间的相互作用对被解释变量影响。前面讨论的分析两个定性变量对被解释变量影响的虚拟变量模型中,暗含着一个假定:两个定性变量是分别独立地影响被解释变量的但是在实际经济活动中,两个定性变量对被解释变量的影响可能存在一定的交互作用,即一个

8、解释变量的边际效应有时可能要依赖于另一个解释变量。为描述这种交互作用,可以把两个虚拟变量的乘积以加法形式引入模型。,4.1 只含一个虚拟自变量的回归,【例】为研究考试成绩与性别之间的关系,从某大学商学院随机抽取男女学生各8名,得到他们的市场营销学课程的考试成绩如右表,散点图,引进虚拟变量时,回归方程可写为:E(y)=0+1x男(x=0):E(y)=0男学生考试成绩的期望值女(x=1):E(y)=0+1女学生考试成绩的期望值注意:当指定虚拟变量0,1时0总是代表与虚拟变量值0所对应的那个分类变量水平的平均值1总是代表与虚拟变量值1所对应的那个分类变量水平的平均值与虚拟变量值0所对应的那个分类变量

9、水平的平均值的差值,即 平均值的差值=(0+1)-0=1,【例2】为研究工资水平与工作年限和性别之间的关系,在某行业中随机抽取10名职工,所得数据如右表,引进虚拟变量时,回归方程可写为:E(y)=0+1x1+2x2女(x2=0):E(y|女性)=0+1x1男(x2=1):E(y|男性)=(0+2)+1x10的含义表示:女性职工的期望月工资收入(0+2)的含义表示:男性职工的期望月工资收入 1含义表示:工作年限每增加1年,男性或女性工资的平均增加值 2含义表示:男性职工的期望月工资收入与女性职工的期望月工资收入之间的差值(0+2)-0=2,4.2 含多个虚拟自变量的回归,例3:分析某地区妇女的年

10、龄、文化程度及居住地状况对其曾生子女数的影响。定量变量:年龄定性变量:文化程度、地区,原变量编码值 虚拟变量赋值的操作文化程度=1(文盲)所有EDU=0文化程度=2(小学)EDU2=1,其他EDU=0文化程度=3(初中)EDU3=1,其他EDU=0文化程度=4(高中)EDU4=1,其他EDU=0文化程度=5(大学)EDU5=1,其他EDU=0 地区=1(城市)AREA=1 地区=2(农村)AREA=0,应用SPSS建立回归方程,回归方程的解释当案例在两个分类变量都等于0时,即文化程度为文盲,居住地在农村时,此种情况称为参照类(其他情况将与此进行比较),其回归方程为:表明所有参照类妇女年龄每上升

11、1岁,其曾生子女数的平均变化量为0.068个。,当文化程度为小学,居住地为农村时:表明,对于相同年龄和居住地而言,小学文化程度妇女比文盲妇女曾生子女数多出b2个部分,即少生1.13个子女。当教育程度为文盲、居住地为城市时,,表明,对于相同年龄和文化程度而言,城市妇女比农村妇女曾生子女数多出b6个部分,即少生0.49个子女。,总之,该回归方程表示:参照类妇女曾生子女数对年龄的回归直线的截据为1.41,年龄每上升1岁,参照类妇女平均曾生子女数上升0.068个。城市妇女比农村妇女的平均曾生子女数少0.49个。小学、初中、高中和大学文化程度妇女的平均曾生子女数分别比文盲妇女少1.13、1.31、1.5

12、8、1.57个(在年龄和居住地相同时)。,文化程度在实际中是一个序次变量。可以用 表示序次变量个相邻分类的实际效应,如初中的边际效应为:,类似,可以计算下面的边际效应:小学=-1.13 初中=-0.18 高中=-0.27 大学=0.01,4.3 分段回归,例4、用分段回归建立某工厂生产批量x与单位成本y(美元)的回归模型。,序号,假定回归直线的斜率在 处改变,建立回归模型,来拟合,其中,这实际上是一个二元线性回归模型,记,则有,该式可以分解为两个线性回归方程:,时为,时为,可用普通最小二乘法拟合模型,此模型说明生产批量小于500时,每增加1个单位批量,单位成本降低0.004美元;当生产批量大于500时,每增加1个单位批量,单位成本降低0.004+0.004=0.008美元.,用普通最小二乘法得回归方程为,注:本例主要说明分段回归的思想和方法。但由于本例数据选择不太理想,不太适合做分段回归,回归系数 没有通过检验。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号