《传播方法论调查方法3:多元线性回归分析.ppt》由会员分享,可在线阅读,更多相关《传播方法论调查方法3:多元线性回归分析.ppt(35页珍藏版)》请在三一办公上搜索。
1、2023/9/21,1,多元线性回归(multiple linear regression),一什么是回归二一元线性回归模型三多元线性回归模型四方程的解释能力五回归方程的检验和回归系数的推断统计六虚拟变量的应用七计算机应用八研究实例,参见郭志刚主编,社会统计分析方法SPSS软件应用第二章,中国人民大学出版社1999,2023/9/21,2,1(多)个定距(类)变量,线性关联,1个定距变量,变量关系,函数关系,统计相关,回归的任务(确定关系),一、什么是回归,2023/9/21,3,回归是相关分析的深入回归分析的结果是建立一个数学模型以表达变量之间的关系在分析观测数据的基础上,确定一个能反映变量
2、之间关系的近似函数表达式,2023/9/21,4,注意,回归模型只是整个研究方案中的一环,它必须依赖理论和经验的支撑,服从研究设计的需要,在研究方法论的指导下展开,2023/9/21,5,研究变量间的因果关系,预测,是否吻合预先构想,评价模型拟合度,求解模型参数,估计,2023/9/21,6,二一元线性回归,参见:卢叔华社会统计学,北京大学出版社1997 第十二章 回归与相关,(一)回归方程与线性回归方程(二)回归方程的建立与最小二乘法(三)回归方程的检验,2023/9/21,7,(一)回归方程与线性回归方程,两变量x与y对于确定的xi,yi是随机变量,可计算其均值回归方程是研究自变量不同取值
3、时,y的均值的变化当因变量y的均值与自变量x呈线性规律时,称线性回归方程根据x个数不同,分为一元线性回归、多元线性回归,2023/9/21,8,关于模型,现实数据=模型+误差没有误差的不是模型,是复制设置模型一般而言是希望用简洁的方式表述复杂信息,达到较好的精确度,2023/9/21,9,(二)回归方程的建立与最小二乘法,回归分析的目的:找出错误最小的方法来预测因变量的数值拟合思路:各点到待估直线铅直距离之和为最小最小二乘法,2023/9/21,10,线性回归方程式不但有简化资料的作用,而且可以推广应用于预测或估计样本以外之个案的数值,2023/9/21,11,回归系数的意义:b值的大小表示每
4、增加一个单位的x值,y值的变化有多大,2023/9/21,12,(三)回归方程的检验,F检验,2023/9/21,13,社会现象的复杂性,需要深入探究,多元分析多元线性回归的基本原理和基本假设同一元线性回归完全相同,三 多元线性回归模型,2023/9/21,14,(一)回归方程的建立,多元回归模型一般表达式,建立的多元回归方程:,其中,称y对x的回归系数或偏回归系数可用最小二乘法求解,2023/9/21,15,x及未包括进方程中的其他与x有关的一切因素对y的总影响,一元回归系数,偏回归系数:除去方程中其他因素对y的共同影响后,某自变量对y的边际影响,(二)回归系数的意义,多元回归系数,2023
5、/9/21,16,(三)标准化回归系数,问题,需要判别所考察的因素的重要程度,解决,将回归系数标准化,做法,1、先将变量标准化,再 计算2、利用回归系数计算,2023/9/21,17,标准化回归系数的意义可以比较几个自变量对因变量影响程度的大小,2023/9/21,18,四方程的解释能力,(一)确定系数(二)调整的确定系数(三)方差分析,2023/9/21,19,(一)确定系数,(01),回归方程解释的差异与用y均值解释的差异之比,模型中所有变量解释y的变化占总变化的比例,受奇异值影响,2023/9/21,20,是衡量 Y的所有变异中由所有自变量的差异共同解释的比例 越高,模型拟合数据的程度就
6、越好。当加入新的变量时,只升不降。由于常常是随着自变量数目的增加而增加,所以直接比较 没有太大的意义。,2023/9/21,21,(二)调整的确定系数,(1:10),偏高,2023/9/21,22,(三)方差分析,y的总变差平方和,回归平方和,余差平方和,2023/9/21,23,五回归方程的检验和回归系数的推断统计,(一)回归方程的显著性检验(二)回归系数的显著性检验(三)回归系数不显著的原因,2023/9/21,24,实质,假设,计算,H0:B1B2Bk0,(BSS/k)/ESS/(n-k-1),在总体中,X1,Xk的变化都不引起Y的线性变化,P与a比较,决定是否拒绝H0,检验在a水平统计
7、性显著,并拒绝H0、接受H1,我们有相当大的把握断定,统计量 b1,bk不等于0不是由于抽样误差造成的。,表述,检验样本y与x1,xk的线性关系是否显著,判断能否肯定总体回归系数中至少有一个不等于0,(一)回归方程的显著性检验,2023/9/21,25,(二)回归系数的显著性检验,2023/9/21,26,样本量太小,变量数太多,Xj标准差过小,自变量线性相关,确实不相关,非线性关系,(三)回归系数不显著的原因,2023/9/21,27,六虚拟变量的应用,什么变量需要虚拟?,分类变量,2023/9/21,28,虚拟变量,一个变量只有两个可能值1 or 0.对于一个两分的变量:gender:1.
8、male 2.female 我们可以重新编码 1=male and 0=female.由此,gender 就变成了一个虚拟变量,表示被访者是否男性.,2023/9/21,29,如何虚拟?,二分变量(是、否),把二分状态看作连续变化的过程,将某一个分类变量(有n个选项)转换成(n-1)个二分变量,以没有进入变量表达的那个类别为参照进行解释,说明不同类别间y取值的变化,均值的意义是编码为1的案例占样本的比例,2023/9/21,30,为什么要在回归分析中引入虚拟变量?,有时我们社会研究的样本数据中观察的个体可以分成不同的组别。组与组、或群体与群体间的在自变量和应变量的平均数会有差异在这种情况下,不控制组别特征的回归模型结果会导致 所估计的偏回归系数偏差。特别是,系数可能低估或者高估一个自变量对应变量的影响强度。,2023/9/21,31,七 计算机操作演示,2023/9/21,32,八 研究实例,社会意识的行动逻辑性别不平等的现象学社会学解释框架浙江学刊2006年第5期,2023/9/21,33,表3 家务劳动时间多元回归分析(2000年),注:做饭时间回归模型 R2=0.387,sig=0.000;洗衣时间回归模型 R2=0.323,sig=0.000,2023/9/21,34,Spss输出的原始数据,2023/9/21,35,