结构方程模型原理以及经典案例研究（可编辑）.doc

资源描述

《结构方程模型原理以及经典案例研究（可编辑）.doc》由会员分享，可在线阅读，更多相关《结构方程模型原理以及经典案例研究（可编辑）.doc（72页珍藏版）》请在三一办公上搜索。

1、结构方程模型原理以及经典案例研究结构方程模型课件 Structural Equation ModelingSEM 结构方程模型结构方程模型是一门基于统计分析技术的研究方法学它主要用于解决社会科学研究中的多变量问题用来处理复杂的多变量研究数据的探究与分析在社会科学及经济市场管理等研究领域有时需处理多个原因多个结果的关系或者会碰到不可直接观测的变量即潜变量这些都是传统的统计方法不能很好解决的问题SEM 能够对抽象的概念进行估计与检定而且能够同时进行潜在变量的估计与复杂自变量因变量预测模型的参数估计结构方程模型是一种非常通用的主要的线形统计建模技术广泛应用于心理学经济学社会学行为

2、科学等领域的研究实际上它是计量经济学计量社会学与计量心理学等领域的统计分析方法的综合多元回归因子分析和通径分析等方法都只是结构方程模型中的一种特例结构方程模型是利用联立方程组求解它没有很严格的假定限制条件同时允许自变量和因变量存在测量误差在许多科学领域的研究中有些变量并不能直接测量实际上这些变量基本上是人们为了理解和研究某类目的而建立的假设概念对于它们并不存在直接测量的操作方法人们可以找到一些可观察的变量作为这些潜在变量的标识然而这些潜在变量的观察标识总是包含了大量的测量误差在统计分析中即使是对那些可以测量的变量也总是不断受到测量误差问题的侵扰自变量测量误差的发生会导致常规回归

3、模型参数估计产生偏差虽然传统的因子分析允许对潜在变量设立多元标识也可处理测量误差但是它不能分析因子之间的关系只有结构方程模型即能够使研究人员在分析中处理测量误差又可分析潜在变量之间的结构关系与传统的回归分析不同结构方程分析能同时处理多个因变量并可比较及评价不同的理论模型与传统的探索性因子分析不同在结构方程模型中我们可以提出一个特定的因子结构并检验它是否吻合数据通过结构方程多组分析我们可以了解不同组别内各变量的关系是否保持不变各因子的均值是否有显著差异已经有多种软件可以处理 SEM包括LISRELAMOS EQS Mplus 结构方程模型包括测量方程LV 和 MV 之间关系的方

4、程外部关系和结构方程LV 之间关系的方程内部关系以ACSI 模型为例具体形式如下测量方程 y y y x x x 1 1 结构方程模型课件结构方程 B 或 I- 2 和分别是内生 LV 和外生 LVy 和 x 分别是和的 MV x 和 y 是载荷矩阵和是路径系数矩阵和是残差 1 1 1 2 2 2 3 3 3 误差观察变量负荷量潜在变量 1 1 1 1 y1 2 2 1 1 1 y1 3 3 1 y1 测量模式结构模式三种分析对比线性相关分析线性相关分析指出两个随机变量之间的统计联系两个变量地位平等没有因变量和自变量之分因此相关系数不能反映单指标与总体之间的因

5、果关系 2 结构方程模型课件线性回归分析线性回归是比线性相关更复杂的方法它在模型中定义了因变量和自变量但它只能提供变量间的直接效应而不能显示可能存在的间接效应而且会因为共线性的原因导致出现单项指标与总体出现负相关等无法解释的数据分析结果结构方程模型分析结构方程模型是一种建立估计和检验因果关系模型的方法模型中既包含有可观测的显在变量也可能包含无法直接观测的潜在变量结构方程模型可以替代多重回归通径分析因子分析协方差分析等方法清晰分析单项指标对总体的作用和单项指标间的相互关系结构方程模型假设条件- 合理的样本量James Stevens 的 Applied Multivari

6、ate Statistics for the Social Sciences 一书中说平均一个自变量大约需要 15个 caseBentler and Chou 1987 说平均一个估计参数需要 5 个 case 就差不多了但前提是数据质量非常好这两种说法基本上是等价的而 Loehlin 1992 在进行蒙特卡罗模拟之后发现对于包含 24 个因子的模型至少需要 100 个 case当然 200 更好小样本量容易导致模型计算时收敛的失败进而影响到参数估计特别要注意的是当数据质量不好比如不服从正态分布或者受到污染时更需要大的样本量连续的正态内生变量注意一种表面不连续的特例underlyin

7、g continuous 对于内生变量的分布理想情况是联合多元正态分布即 JMVN 模型识别识别方程比较有多少可用的输入和有多少需估计的参数模型不可识别会带来参数估计的失败完整的数据或者对不完整数据的适当处理对于缺失值的处理一般的统计软件给出的删除方式选项是 pairwise 和 listwise然而这又是一对普遍矛盾pairwise 式的删除虽然估计到尽量减少数据的损失但会导致协方差阵或者相关系数阵的阶数 n 参差不齐从而为模型拟合带来巨大困难甚至导致无法得出参数估计 listwise 不会有 pairwise 的问题因为凡是遇到 case 中有缺失值那么该 case 直接被全部删

8、除但是又带来了数据信息量利用不足的问题全杀了吧难免有冤枉的不杀吧又难免影响整体局势模型的说明和因果关系的理论基础实际上就是假设检验的逻辑你只能说你的模型不能拒绝而不能下定论说你的模型可以被接受 3 结构方程模型课件结构方程模型的技术特性- 1 SEM 具有理论先验性 2 SEM 同时处理测量与分析问题 3 SEM 以协方差的运用为核心亦可处理平均数估计 4 SEM 适用于大样本的分析一般而言大于 200 以上的样本才可称得上是一个中型样本 5 SEM 包含了许多不同的统计技术 6 SEM 重视多重统计指标的运用结构方程模型的实施步骤- 模型设定研究者根据先前的理论以及已有的知识

9、通过推论和假设形成一个关于一组变量之间相互关系常常是因果关系的模型这个模型也可以用路径表明制定变量之间的因果联系模型识别模型识别时设定 SEM 模型时的一个基本考虑只有建设的模型具有识别性才能得到系统各个自由参数的唯一估计值其中的基本规则是模型的自由参数不能够多于观察数据的方差和协方差总数模型估计SEM 模型的基本假设是观察变量的反差协方差矩阵是一套参数的函数把固定参数之和自由参数的估计带入结构方程推导方差协方差矩阵使每一个元素尽可能接近于样本中观察变量的方差协方差矩阵 S 中的相应元素也就是使与 S 之间的差异最小化在参数估计的数学运算方法中最常用的是最大似然法ML和广

10、义最小二乘法GLS 模型评价在已有的证据与理论范围内考察提出的模型拟合样本数据的程度模型的总体拟合程度的测量指标主要有 2检验拟合优度指数GFI校正的拟合优度指数A GFI均方根残差RMR等关于模型每个参数估计值的评价可以用t值模型修正模型修正是为了改进初始模型的适合程度当尝试性初始模型出现不能拟合观察数据的情况该模型被数据拒绝时就需要将模型进行修正再用同一组观察数据来进行检验 4 结构方程模型课件探索性分析- 定义探索性因子分析法Exploratory Factor AnalysisEFA是一项用来找出多元观测变量的本质结构并进行处理降维的技术因而EFA 能够将将具有错综

11、复杂关系的变量综合为少数几个核心因子探索性因子分析EFA致力于找出事物内在的本质结构 f1 e1 1 2 e2 f2 e3 3 f3 残差指标因子负荷潜变量探索性分析的适用情况在缺乏坚实的理论基础支撑有关观测变量内部结构一般用探索性因子分析先用探索性因子分析产生一个关于内部结构的理论再在此基础上用验证性因子分析但这必须用分开的数据集来做探索性分析步骤辨别收集观测变量按照实际情况收集观测变量并对其进行观测获得观测值针对总体复杂性和统计基本原理的保证通常采用抽样的方法收集数据来达到研究目的获得协方差阵或Bravais-Pearson 的相似系数矩阵我们所有的分析都是从原始

12、数据的协方差阵或相似系数矩阵出发的这样使我们分析得到的数据具有可比性所以首先要根据资料数据获得变量协方差阵或相似系数矩阵确定因子个数有时候你有具体的假设它决定了因子的个数但更多的时候没有这样的假设你仅仅希望最后的到的模型能用尽可能少的因子解释尽可能多的方差如果你有 k 个变量你最多只能提取 k 个因子通过检验数据来确定最优因子个数的方法有很多例如 Kaiser 准则Scree 检验方法的选择由具体操作时视情况而定 5 结构方程模型课件提取因子因子的提取方法也有多种主要有主成分方法不加权最小平方法极大似然法等我们可以根据需要选择合适的因子提取方法其中主成分方法一种比较常用的提

13、取因子的方法它是用变量的线性组合中能产生最大样品方差的那些组合称主成分作为公共因子来进行分析的方法因子旋转因子载荷阵的不唯一性使得可以对因子进行旋转这一特征使得因子结构可以朝我们可以合理解释的方向趋近我们用一个正交阵右乘已经得到的因子载荷阵由线性代数可知一次正交变化对应坐标系的一次旋转使旋转后的因子载荷阵结构简化旋转的方法也有多种如正交旋转斜交旋转等最常用的是方差最大化正交旋转解释因子结构最后得到的简化的因子结构是使每个变量仅在一个公共因子上有较大载荷而在其余公共因子上的载荷则比较小至多是中等大小通过这样我们就能知道所研究的这些变量是由哪些潜在因素也就是公共因子影响的其中哪些因

14、素是起主要作用的而哪些因素的作用较小甚至可以不用考虑因子得分因子分析的数学模型是将变量表示为公共因子的线性组合由于公共因子能反映原始变量的相关关系用公共因子代表原始变量时有时更利于描述研究对象的特征因而往往需要反过来将公共因子表示为变量的线性组合即因子得分验证性因子分析验证性因子分析是对社会调查数据进行的一种统计分析它测试一个因子与想对应的测度项之间的关系是否符合研究者所设计的理论关系验证性因子分析 confirmatory factor analysis 的强项在于它允许研究者明确描述一个理论模型中的细节因为测量误差的存在研究者需要使用多个测度项当使用多个测度项之后我们就

15、有测度项的质量问题即效度检验而效度检验就是要看一个测度项是否与其所设计的因子有显著的载荷并与其不相干的因子没有显著的载荷对测度模型的检验就是验证性测度模型对测度模型的质量检验是假设检验之前的必要步骤而验证性因子分析CFA是用来检验已知的特定结构是否按照预期的方式产生作用 e1 1 2 e2 f1 e3 3 残差观测变量负荷潜变量 6 结构方程模型课件验证性因子分析的步骤定义因子模型包括选择因子个数和定义因子载荷因子载荷可以事先定为 0 或者其它自由变化的常数或者在一定的约束条件下变化的数比如与另一载荷相等这是和探索性因子分析在分析方法上的一个重要差异我们可以用一个

16、直观的比喻也就是说探索性因子分析是在一张白纸上作图而验证性因子分析是在一张有框架的图上完善和修改收集观测值定义了因子模型以后我们就可以根据研究目的收集观测值了这一点与探索性因子分析有一定的相似之处获得相关系数矩阵与探索性因子分析一样我们的分析都是在原始数据的相关系数矩阵基础上进行的所以首先就要得到相关系数矩阵实际上方差协差阵相似系数矩阵和相关阵之间是可以相互转化的根据数据拟合模型我们需要选择一个方法来估计自由变化的因子载荷在多元正态的条件下最常用的是极大似然估计也可采用渐进分布自由估计评价模型是否恰当这一步可以说是验证性因子分析的核心当因子模型能够拟合数据时因子载荷的选择要

17、使模型暗含的相关阵与实际观测阵之间的差异最小最好的参数被选择以后差异量能被用来作为衡量模型与数据一致的程度最常用的模型适应性检验是卡方拟合优度检验原假设是模型是适应性模型备择假设是存在显著差异但是这个检验受样本量大小影响包含大样本的检验往往会导致拒绝原假设尽管因子模型是合适的其他的统计方法比如用 Tucker-Lewis 指数比较建议模型和原模型的拟合度这些方法受样本量大小影响不大与其他模型比较为了得到最优模型我们需要完成这一步如果你想比较两个模型其中一个是另一个的缩略形式你就能从卡方统计量的值检查出他们的差别大约服从卡方分布几乎所有独立因子载荷的检验能用来作为全因子模型和简因

18、子的模型之间的比较为以防你不是在检查全模型和简模型你可以比较均方根误差的近似值 RMSEA 它是模型中每个自由度差异的一个估计值验证性分析适用情况验证性因子分析要处理推论统计量处理难度要求高需要具备更大容量的样本精确的样本量要随着观测值和模型的因子数变化而变化但一个标准模型至少需要 200 个个体在进行分析过程中必须选择与每个因子在很大程度上匹配的变量而不是可能是潜在变量的随机样本 7 结构方程模型课件基于结构方程全模型的大学生就业预期情况分析 0 引言随着我国经济的不断发展我国高校大规模扩招越来越多的年轻人获得了接受教育的机会从社会发展的角度来讲大批高素质的人才培养是与

19、我国快速发展的社会经济水平相适应的然而由此也带来了两方面的问题一是本科生的就业矛盾日益突出几乎每一个大学生都在切身感受就业的恐慌二是人才的竞争加剧加之市场对于人才的需求多元化考研或出国深造成为提高我们本科生自身核心竞争力的一种渠道同时也是规避就业难的一种新途径那么在如此就业形势严峻人才竞争加剧的当今社会大学生们对自己将来的就业有怎样的预期呢本论文基于辽宁工程技术大学数学与统计学院 2005 级统计系本科生于 2007 年 10 月至 11 月期间收集的题目为大学生就业与深造意向调查的原始问卷资料欲从大学生的就业预期角度出发结合结构方程模型分析大学生预期就业手段和预期就业地域方面

20、的相关情况并期望推广结构方程模型应用于问卷分析的方法 1 问题分析 11 研究目的本论文在采用量表方式对问卷中的定性变量予以赋值后欲分析影响大学生预期就业手段和预期就业地域的因素并期望得到各个因素与大学生预期就业手段预期就业地域之间的关系的度量需注意该调查的调查对象是辽宁工程技术大学全日制在读本科生调查对象仅仅是来自大学生这个总体的一个群或层根据抽样调查的相关理论辽宁工程技术大学在读本科生并不具有典型代表性即它作为大学生总体的一个群被抽出并不具备随机性和强代表性因此本论文从这份调查数据出发仅仅只是从一个相对小的视角研究大学生预期就业手段预期就业地域方面的情况结果不一定适用于

21、大学生总体问卷数据归属于 2009 年 10 月这个时点因此本论文的分析结果当然是对 2009 年 10 月这个时点相关情况的反映 8 结构方程模型课件 12 研究方法本论文考虑建立结构方程全模型来研究大学生预期就业手段和预期就业地域内生潜变量与其各个因素外生潜变量之间的关系并量化这种关系结构方程模型的优势就在于引入潜变量不可直接观测的量使人们考虑问题的思路跃然纸上显得更加系统化也就是它以如下的方式考虑问题 X 指标外生潜变量内生潜变量 Y 指标外源观测变量内生观测变量那么研究外生潜变量对内生潜变量的影响实质上就是间接研究 X 指标对 Y 指标的影响只不过结构方程把由同

22、一个潜变量控制的指标划分为一类表示这一类指标受该潜变量的影响使得问题的分析更加的系统值得注意的是本论文的研究基础问卷资料来自于第二方的调查资料第二方事先并未考虑过用结构方程模型分析问卷那么本文运用结构方程模型分析问卷问卷中的问题就不一定能很好地切合结构方程模型由此可能引起相当的误差这也就决定了我们在确定运用结构方程模型分析问卷时已有心理准备面对模型可能出现的整体拟合效果不好等问题故本文着眼于推广结构方程模型建模方法在问卷分析中的应用也就是说欲用结构方程模型分析问卷应该事先根据相关理论或经验初步设定几个潜变量然后在问卷中为每一个潜变量设置若干的题目来测量它 2 问卷数据的收集 2

23、1 数据来源本论文数据来自于辽宁工程技术大学理学院 2007 级统计系本科生于 2009 年 10 月至 11 月期间收集的题目为大学生就业与深造意向调查的原始问卷资料该次调查的调查对象为辽宁工程技术大学全日制在读本科生辽宁工程技术大学二级学院的学生不包括在内具体说来本论文仅仅提取在问卷的甄别问题部分回答就业的那部分人共计280 人的相关信息进行分析 22 抽样方法该次调查按学科类别文科理科工科其他和年级大一大二大三大四将研究总体分为 16 个层由于其他类的大一和大四的数据难以取得因此仅针对其余 9 结构方程模型课件 14个层进行抽样根据抽样框在每层中按简单随机抽样抽取 20的

24、班级同时在抽中的班级中按简单随机抽样抽取 30的学生 23 问卷内容及执行情况调查问卷详见附录三该次调查专门成立调查组按照被抽中学生的花名册由专人负责发放问卷共计发放问卷 788 份实际收回问卷 758 份提取有效问卷 706 份 3 问卷数据的处理 31 定性变量的分类及赋值方法二项分类变量比如性别男女常赋值为01或12 无序分类变量多项分类变量比如学科类别工文理常赋值为123 仅表示类别无实际意义定性变量所分类别或属性之间无程度或顺序的差别有序分类变量比如满意度按非常不满意不满意一般满意非常满意分类常赋值为123 注意要等间距表示程度的递进或顺序的递增递减

25、所分类别之间有程度的差别 31 本文变量的设置表 1 指标的设置变量符号变量名取值情况 X1 生源地 X1 1 西部 X1 2 中部 X1 3 东部 X2 户口类型 X2 0 农村户口 X2 1 城镇户口 X3 父亲受教育程度 X3 1 初中以下 X3 2 初中 X3 3 高中或中专 X3 4 大专或本科X3 5 研究生以上 X4 母亲受教育程度 X4 1 初中以下 X4 2 初中 X4 3 高中或中专 X4 4 大专或本科 X4 5 研究生以上 10 结构方程模型课件 X5 月可支配生活费 X5 1 300 元以下 X5 2 300500 元 X5 3 500800 元 X5 4

26、800 元以上 X6 对就业形势的看法 X6 1 很不好 X6 2 不好 X6 3 一般 X6 4 较好 X6 5 非常好 X7 所学专业前景看法 X7 1 很不好 X7 2 不好 X7 3 一般 X7 4 较好 X7 5 非常好 X8 参加就业辅导的次数 X8 0 参加 0 次 X8 1 参加 1 次 X8 2 参加 2 次 X8 3 参加 4 次以上 X9 就业资格证书个数 X9 0123 X10 四六级考证情况 X10 0 四六级都没过 X10 1 过四级 X10 2 过六级 X11 参加社会实践次数 X11 0 从不参加 X11 1 参加 12 次 X11 2 参加 34 次 X11

27、3 参加 4 次以上 Y1 是否自主创业 Y1 0 否 Y1 1 是 Y2 工作地域 Y2 1 农村地区 Y2 2 县级地区 Y2 3 地级城市及州市 Y2 4 省会城市及直辖市表 2 潜变量的设置变量符号变量名变量包括的指标社会经济地位 X1 X2X3 X4 X5 1 外生对就业状况的把握 X6 X7X8 潜 2 变量自身能力 X9 X10X11 3 内 1 预期就业手段 Y1 生潜变 2 预期就业地域 Y2 量 11 结构方程模型课件 4 基于结构方程模型的大学生预期就业手段和就业区域情况分析 41 结构方程模型简介很多社会教育心理等研究中涉及的变量都不能准确直

28、接地测量比如学习动机家庭社会经济地位等我们称这样的变量为潜变量潜变量往往只能通过一些外生指标去衡量比如用父母受教育程度学生户口类型父母收入等外生指标来衡量学生的社会经济地位潜变量传统的统计分析方法不能妥善处理这些潜变量而结构方程全模型则能同时处理潜变量及其指标它是一种基于变量的协方差矩阵来分析多个变量之间关系的一种统计方法也称为协方差结构分析并且它有机地整合了多元统计中的因子分析方法生物学中的路径分析方法以及计量经济学中的联立方程模型结构方程全模型由测量方程和结构方程组成若结构方程模型中只包括测量方程则又称为验证性因子模型关于测量方程和结构方程的形式最普遍的情况是设定为线性模型

29、测量方程用来描述指标与潜变量之间的关系用下述模型表示 X A m X 41 Y A n Y T T 这里X x x x 是由m个外生指标构成的列向量是 1 2 m 1 2 u 由u个外生潜变量构成的列向量A 是一个m u维的矩阵称作X 在上的因子负荷阵 X 描述了外生指标与外生潜变量之间的关系 T 是m维的误差项列向量 1 2 m T T Y y y y 是由n个内生指标构成的列向量是由v个内生变 1 2 n 1 2 v 量构成的列向量A 是一个n v维的矩阵称作Y 在上的因子负荷阵描述了内生指 Y 标与内生潜变量之间的关系是n维的误差项列向量 1 2 n 结构方程用来描述外生潜变量与内生潜变量之间的关系用下述模型表示 42 这里同上定义是一个v v维的矩阵描述内生潜变量之间的关系是一个v u的矩阵是在上的负荷描述外生潜变量对内生潜变量的影响 T 为一个v维结构模型残差项列向量反映了模型中未能解释的部分 1 2 v 42 模型的基本假定一般假定每一个指标x y i 12 m j 12 n只在其对应的潜变量上有不为 0 i j 的因子负荷而在其他潜变量上的因子负荷为 0内生变量之间的路径相关或单方面影响依据经验和相关理论而定测量误差项与外生潜变量之间测量误差项与内生潜变量之 i

展开阅读全文