PSM理论与R软件应用.docx

上传人:小飞机 文档编号:4888257 上传时间:2023-05-21 格式:DOCX 页数:39 大小:397.27KB
返回 下载 相关 举报
PSM理论与R软件应用.docx_第1页
第1页 / 共39页
PSM理论与R软件应用.docx_第2页
第2页 / 共39页
PSM理论与R软件应用.docx_第3页
第3页 / 共39页
PSM理论与R软件应用.docx_第4页
第4页 / 共39页
PSM理论与R软件应用.docx_第5页
第5页 / 共39页
亲,该文档总共39页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《PSM理论与R软件应用.docx》由会员分享,可在线阅读,更多相关《PSM理论与R软件应用.docx(39页珍藏版)》请在三一办公上搜索。

1、上篇:倾向匹配法基本理论2一、因果推论的基本难题2(一)基本难题2(二)平均处理效用3二、处理变量选择3(一)处理变量的类型3(二)处理变量的可操作性3(三)财务与会计研究应用中处理变量的选取3三、因果推论的相关假定4(一)单元同质性假定4(二)可忽略的处理分配假定4(三)控制混淆共变量5(四)稳定单元处理值假定5(五)共变量分布平衡与重合假定6四、使用倾向值匹配法估计因果效用7(一)倾向值的基本要义7(二)倾向值匹配法的步骤8(三)倾向值8下篇:倾向值匹配法R软件应用12一、Matchit12二、Matching23上篇:倾向匹配法基本理论一、因果推论的基本难题(一) 基本难题一个二元处理变

2、量,有两个因果态,会产生两个实际结果,两个反事实结果。无论结果 是实际观察到的,或是无法观察到的,对应到两个因果态,两种结果以随机变量Y表示为Y 和,1通常代表接触到处理,0代表未接触到处理。用Z来表示这个二元变量或处理变量, 则两个因果态的数学表达式为:Y = Y if Z=11.11Y = Y if Z=01.20某个单元实际被观测到的结果,通常以小写字母表示,y1和y0。而这个二元处理对 于该受测单元的个体处理效用则为:ITE =t = yi - y01.3处理效用都是比较实验组和对照组间的线性差。表1因果推论的基本难题Y1Y0实验组Z=1实际结果Y反事实结果对照组Z=0反事实结果实际结

3、果Y1.1和1.2可以表示:Y = ZY + (1- Z )Y1 410对照组可以观测到的,是实验组无法观测到的反事实结果;实验组可以观测到的,是对 照组无法观测到的反事实结果。对任何一个受测单元来说,不可能获得它的个体处理效用,因为,它或是在实验组被观测到y1,或是在对照组被观测到y0,由于无法同时得到y1和y0,当然也不可能获得个体处理效用t .。这就是因果推论的基本难题。从1.4可以得到,当接触处理时Z=1,(1-Z)% =0,的信息便缺失了;当没有接触处理时Z=0,ZY =0,匕的信息便缺失了。(二)平均处理效用由于无法获得每一个受测单元的个体处理效用,即处理效用是无法在个体层面上估计

4、, 只能从集体层面上估计平均处理效用(ATE):Ate = E(t ) = E(Y - Y) = E(Y) - E(Y)1.51010二、处理变量选择(一)处理变量的类型受测单元接受一个二元的处理实验,产生两种状态:接触到处理的状态和未接触到处理 的状态,前者属于实验组,后者属于对照组,比较受测单元在两种状态下的差别,所得到的 就是处理效用。如果处理不是二元的,而是多元的(例如受教育程度:小学、中学、大学),可以用多 元逻辑处理;如果是连续性的处理变量,则是广义的倾向值匹配。连续性的处理变量应用 更加广泛。(二)处理变量的可操作性因果推论中,并非任何一个变量都可以置于回归方程的右侧,成为处理变

5、量;处理变量 必须能够在受测单元上实现不同程度的实验。如探索身高与收入的因果关系是没有意义的,因为一个人身高是固定的。但如果这个人 通过穿增高鞋,那么穿增高鞋可以看成一个处理变量,它改变了身高。性别也不适合作为处理变量。单亲母亲也不适合作为处理变量。另外,人为把一个变量按照均值(或中位数)分类,大于均值(或中位数)为1,否则 为0,从而构建一个虚拟二元变量。在分配受测单元于处理组和对照组时,强调,随机”分 配,即接受处理的受测单元不是因为其他因素而选择处理的。因此,人为构造一个虚拟二元 变量作为处理变量也是不可取的,但可以把这个变量作为连续性的处理变量。(三)财务与会计研究应用中处理变量的选取

6、附表1中对国内使用PSM方法中处理变量选取进行了一个归纳。国内在财务与会计研究 中,从2010年开始出现PSM方法的应用,一直到2017年,该方法的应用并不多。其中,处 理变量涉及股权激励、发行债券、公司违规、交叉上市、银行授信、政府补贴、税收激励、 审计意见、事务所选择、媒体报道、研发投入等二元变量,还涉及一些连续性处理变量,如 债务集中度、研发强度等。三、因果推论的相关假定(一) 单元同质性假定单元同质性假定就是说,各个受测单元基本上是一样的,是同质的。不能或避免比较类 似苹果和橘子的对象,尽可能比较同一种苹果,最好是使用同一个基因复制出来的苹果。在实验中,复制相同的个体,如在同一个环境等

7、因素下,培养类似的小白鼠,然后分相 同的两组,一组接触处理一组不接触处理。培养200只基因完全相同的小白鼠,100只接受 紫外线照射,另外100只不接受。6个月后,观察两批小白鼠皮肤病变的数量,假设我们观 测到实验组中有20只老鼠皮肤癌变,病变率为20%,而对照组只有5只病变,病变率为5%, 所以实验处理的效用就是20%-5%=15%。平均来说,过度照射紫外线的小白鼠,相比没有照 射紫外线的小白鼠,皮肤癌变的概率增加了 15%。单元同质性假定,我们可以这样认为,接触组的个体和非接触组的个体尽量相同。所以 在匹配中,一些研究是在同年、同行业、同地区或者同规模等几种匹配规则,以一种匹配规 则进行匹

8、配;也有的以几种规则一起限制进行匹配。(二) 可忽略的处理分配假定在实验室里,处理分配可以做到随机化,即接触和非接触处理变量的个体不是人为分配 的。但是在社会科学等方面不可能做到处理分配的随机化。在分配受测单元于处理组与对照组时,强调是“随机”分配。随机分配处理是为确保接 触处理的受测单元不是因为其他因素而选择接触处理。比如参加数学补习的学生,如果一些成绩好的学生对自己的成绩要求更高,那么参加补 习班的这些成绩好的学生,也就是实验组的学生,他们的数学平均成绩高于对照组就不足为 奇了。成绩高可能不是来自于补习班的教学效果显著,而是本来这些学生成绩就好。所以, 若果能够“随机”分配学生参与补习班,

9、则可以排除这些可能造成实验组学生和对照组学生 基本差异的因素。实验结果必须与处理分配是独立的,即,(Y1, Y0) Z1.6分配处理z必须,联合”独立于(匕,Y):在一个设计合理的随机分配处理的实验中,分配机制并不能让我们预测实验效果的大小。分配处理Z ,联合”独立于(y, Y)时,处理 分配是随机化的,因此处理分配是可忽略的,所以1.6称为严格可忽略的处理分配假定。处理变量Z ,联合”独立于(7,),但不表示Z与Y是独立的。由于社会科学的研究 多属于观测性研究,与实验研究的最大差别在于,研究者无法控制处理是如何分配到各个受 测单元的,研究者所进行的观测性研究,往往是发生在处理分配后,结果已经

10、发生,研究者 才观测到受测单元的行为以及反应,只有通过合理的假定以及建模来了解处理的分配机制, 借此从中分离处理与因果态的关系,从而达到独立的条件。鉴于观测性研究无法随机分配处 理,研究者使用问卷调查模拟实验室随机分配处理的机制,确保处理效用大小与处理分配无 关。严格可忽略的处理分配假定可以减弱到弱可忽略的处理分配假定,即Y1 Z、七上Z , 分配处理Z分别与*七)独立,Y1 Z,YL Z1.7满足1.7,则有Ate = e (t)=E(Y I Z = 1) - E(Y I Z = 0)1.8=E(Y I Z = 1) - E(Y I Z = 0)1.8表明处理分配等概率的。(三) 控制混淆共

11、变量我们可以模仿实验的研究,但是无法复制相同的受测者与受测环境。比如,参加补习班 的硬件条件比较好,硬件条件既影响处理,参加补习班”,又影响补习成绩。因此,在因果 推论的研究中,如果无法控制影响处理分配和实验结果的混淆共变量,则分配处理Z必须“联 合”独立于* Y)就不成立,所以我们在研究中要尽量控制可能影响处理分配和实验结果 的共变量X,让联合独立性成立,即:(匕,Y0) 1 Z|X1.9假设在控制可观察到X的条件下,分配处理的机制是严格可忽略的。这个假定放宽了等 概率分配处理的条件,处理分配不再要求是等概率的,只要满足在控制共变量的条件下,处 理分配是等概率的即可。式1.9改变为Ate =

12、 e (t )=E(Y I X, Z = 1) - E(Y I X, Z = 0)1 1010=E(Y I X, Z = 1) - E(Y I X, Z = 0)因此,我们需要知道E(Y I X,Z = 1)和E(Y I X,Z = 0),在接触处理时,共变量对受测单 元的影响;在非接触处理时,共变量对受测单元的影响。估计这两部分可以使用倾向得分匹 配方法。(四) 稳定单元处理值假定稳定单元处理值假定:一是指处理对于所有受测单元的效果是一致的,是稳定的。比如, 如果参加补习班可以使得成绩提高10%,那么在其他变量不变的情况,我们可以推测,对于 其他学生参加补习班也应该提高成绩,如果成绩反而下降

13、了,这表示参加补习班这个处理, 其效用可为正,也可以为负,则处理值是不稳定的。二是指受测单元彼此不受对方干扰;未接触到处理的受测单元,不会因为另一个受测单 元接触到处理而受影响;所以同群效应和溢出效应都是违反稳定单元处理值的假设。比如,参加补习班的学生进入没有课后补习的班上,参加补习班的学生由于补习使得他 们的能力提高,能够积极准确地回答老师的问题,但可能造成老师误判自己的教学效果,本 来尚未解释清楚的概念,可能不再解释了。因此,未参加补习班的学生因此受到了影响,于 是他们成绩的低落不是因为没有参加补习,而是老师没有尽到授业解惑的责任。对于这点问 题,可能的解决方式是以班级为单元,随机决定哪个

14、班级的学生参与补习,而不是决定哪些 学生参加补习。比如:选择,股权激励”处理,一个公司选择这些处理可能是受到其他公司选择的影响, 所以企业绩效的增加,我们也无法得出“股权激励”提高了企业绩效的结论。原因之一是“股 权激励”并非一项随机选择,而是参考其他企业的行为,结合本企业条件所作出的决定;选 择又受到其他企业的干扰,是在参考其他企业经验后,才推出本企业的股权激励模式,所以 处理实施的方式可能是经过改良的。(五)共变量分布平衡与重合假定在控制适当共变量后,可以忽略处理变量分配与潜在结果的关系,但还有相应的假定: 共变量在实验组和对照组的分布必须是平衡的、重合的。1、平衡以股权激励为例,假设我们

15、控制的共变量包括财务变量和公司治理变量:企业规模、资 产负债率、营业收入增长率、资本支出率、市场力量、总资产周转率、资产收益率、两职合 一、企业实际控制人以及第一大股东持股比例,典型的实验组和对照组共变量分布不平衡的 情况可能是这样的:实施股权激励的大规模企业比小规模多,实施股权激励的资产负债率较 高、国有企业较多,如此以来,两个组别无法对比,我们可以怀疑,除了实施股权激励造成 的组间差异外,这些共变量可能也是造成这些差异的因素之一。所以,检验假设1.9成立与 否,检查共变量在组间的分布是否平衡是重要的方法之一。在实践中,是通过比较这些共变 量在组间的均值和标准差的差异来判断是否平衡。2、重合

16、实验组和对照组分布必须重合,重合的区域氛围称为共同支持域。图1模拟了参加补习 班前后数学成绩的差异。黑实点是实验组,灰实点是对照组。黑实线和灰实线分别为实验组 和对照组的回归线。实验组有数学成绩特别高的学生,对照组有数学成绩特别低的学生,在 图1的左图,从左图的左侧两条垂直线和右侧两条垂直线可以看出,对照组的低分学生不能 与实验组匹配,而实验组的高分学生不能与对照组匹配,也就是说这两个区域不能重合。而 图1的右图,虽然回归线拟合的更好,但还是存在两个区域不重合。不重合会造成估计处理 效用的偏差。解决不重合的方法之一就是删除这些不重合的区域,也就是只保留重合部分。图1重合性分析平衡和重合是两个完

17、全不同的概念,平衡了共变量在组间的差异,并不代表各个共变量 的分布就是重合的;重合也不代表平衡。比如高管特征变量中,实验组和对照组中高管的受 教育程度可能都分布在本科以下、本科、本科以上等三个层次,实验组和对照组在受教育程 度上完全重合,但分布不平衡,即实验组受教育程度在三个层次的人数都比较少,而对照组 则比较多。实验组中高管的年龄可能只分布在45-55岁之间,而对照组中高管年龄可能分布 在30-60岁之间,所以在年龄上缺乏重合,但实验组和对照组年龄分布的均值是平衡的。、使用倾向值匹配法估计因果效用(一)倾向值的基本要义从“控制”的角度出发,倾向值匹配十分巧妙地完成了对多个共变量的控制。我们可

18、以 从一个共变量的情况谈起:假定只有个人智力水平混淆了大学教育和收入之间的关系。一个 比较直观的控制个人智力的办法是将个人智力这一变量细分(sub-classification)成不同 层次以保证每一个层次中的人的个人智力水平近似。然后我们在各个层次内部观察大学教育 和收入的关系,最后将这些关系综合起来(Rubin, 1997)。如果存在两个共变量(例如家庭经 济背景好坏和个人智力高低),我们可以将这两个变量交互分成2x2个小组,组个体在这两 个变量上的取值都是一样的(家庭背景好且智力高、家庭背景好且智力低、家庭背景不好且 智力高,以及家庭背景不好且智力低),在每组内部观察大学教育和收入的关系

19、然后综合起 来。至此,通过细分的方法,我们完成了 “控制”共变量的工作。但随着共变量越来越多, 这种细分法就变得十分不方便了。例如,如果我们要控制5个共变量,每个变量有5个取值 水平,我们就需要划分5站=3125个小组。很快我们的数据样本量就不够保证每一组都有个 体。倾向值匹配的办法巧妙地解决了这个多共变量下的“多维” (multiple dimensional)问 题:它不再关注每个需要控制的共变量的具体取值,而是转而关注将这些变量纳入 Logistic回归方程后预测出来的倾向值取值,倾向值就是某一个样本接受到处理的概率。 只要保证倾向值匹配,这些所有需要控制的共变量就都考虑到了 (Rose

20、nbaum & Rubin, 1983)。这样做实际上是将对多个共变量的控制转为对倾向值的控制从而达到“降维” (dimension reduction)的目的。换句话说,无论有多少需要控制的共变量,我们都能够通 过倾向值匹配的方法将它们控制,从而帮助我们得出因果性结论。因此,从“控制”的角度 出发,倾向值匹配法很好地解决了多共变量时的控制问题,从而支持了因果推论。(二)倾向值匹配法的步骤分3个主要步骤:估计倾向值、匹配、估计处理效应。任何一项检验不能通过,则必须从头开始。(三) 倾向值倾向值6(X)是某一个样本接受到处理的概率,假定这个处理是个二元变量,则倾向值 就是一个接受或不接受处理的指

21、标变量。e(X ) = Pr(Z =11 X.)1.11当Xj包括不止一个共变量时,倾向值e(X,)可以降维,把多维的共变量简化成一维的 概率值。1、倾向值的性质对于非随机的实验,或社会、经济科学研究中,我们必须借助平衡方法来平衡两组间的 差距,比较平衡国的组间所得的处理效用。倾向值能平衡实验组和对照组之间的差异。一个实验组和一个对照组的样本,一旦拥有 相同的倾向值,这个两个样本在可观察到的共变量X,上的分布是一样的,两者在共变量X, 上的差异是平衡的。同时,两个样本有相同的倾向值,不代表两个样本有相同的共变量X,。在控制倾向值 的情况下,共变量是独立于处理分配的,X 1 Z I e(X)1.

22、12 因此,对于相同倾向值的单元来说,实验组和对照组间结果变量的均值的差,是该倾向值上 平均处理效用的无偏估计。2、估计倾向值Z处理变量不外乎是二元型、连续型、定序型等几类,求解1.11函数,都可以通过统 计软件来实现。参数回归来求解倾向值过程中,由于Z和X.关系的模型无法得知,所以往往被要求加入对参数设定的稳定性检验,说明使用不同的参数设定,对研究结果的影响不大。非参数回归求解倾向值,摆脱了对参数假定的依赖。如果Z是二元型变量,可以使用PROBIT或Logistic回归模型来计算。如果Z是连续型变量,可以使用多元线性回归来计算。如果Z是定序型变量,可以使用有序Logistic回归来计算。如果

23、Z是类别型变量,可以使用多项Logistic回归来计算。3、匹配法(1)精确匹配法实验组和对照组,寻找相同的倾向值进行匹配。问题:很难找到相同的倾向值,最终可能导致样本量的丢弃。(2)最近邻匹配法实验组和对照组,寻找相似的倾向值进行匹配。不可替代匹配:造成匹配度不高的问题。可替代匹配:可能扩大处理效用的偏差。修正:卡尺匹配法,即限制了实验组和对照组 倾向值的最大可容忍差距,超过这个差距,应选择放弃。因此,陈述因果推论,应如实报告。半径匹配法属于卡尺匹配法的一种,任何对照组样本与某一实验组样本的倾向值的绝对 值差值小于设定的半径大小,那么这些对照组样本都会被选择来匹配实验组样本。一般软件 里设置

24、为0.01(3)区间匹配法区间匹配法又称子分类匹配、分层匹配法。首先使用分位数法将估计得到的倾向值分层 或分类,建议最佳5分位点或6分位点。在5个区间内进行5个独立的匹配,得到5个处理 效用,最后在加权平均得到最终的处理效应。(4)核匹配法核匹配法是使用权重调整所有匹配到实验组样本的对照组样本,更合理地调整每个对照 组样本与任一实验组样本之间的距离(倾向值)。(5)马氏距离匹配法首先使用共变量计算实验组样本与对照组样本的马氏距离;其次,从中挑出马氏距离最 小的对照组样本进行匹配,直到实验组样本都有匹配的对照组样本。问题:共变量数量的增大,会加大马氏距离,增加寻找匹配的难度。马氏距离是匹配共变量

25、,倾向值匹配是匹配倾向值。(6)贪婪匹配与最佳匹配法为实验组寻找最相近的对照组样本进行匹配。问题:只关心单一样本最近距离的匹配样本,不关注所有匹配的总距离是否为最佳选择。最佳匹配:最小化所有匹配间距离的总和。4、匹配后的检验使用倾向值匹配法的主要功能是消除选择性偏差,为了得到更加可靠的处理效用,从而 避免选择性偏差,需要对共变量分布进行平衡与重合检验,以及是否存在选择性偏差的敏感 性分析。(1)共变量分布不平衡分析检验方法一:共变量在实验组和对照组均值的差值是否显著:T检验。原假设:两个均值相等,备择假设:两个均值不相等。检验结果是统计显著的,则拒绝原假设,接受备择假设,则两均值是有差异的,共

26、变量 的分布是不平衡的。问题:T检验只检验了均值的差异,无法检验分布的其他特征。检验方法二:Kolmogorov-Smirnov检验方法使用不同的分布特征检验两个分布的差异。原假设:两个分布的累积密度函数相等;备择假设:不相等。检验结果是统计显著的,则拒绝原假设,接受备择假设,则两分布是有差异的,共变量 的分布是不平衡的。经验:两种方法一起使用,更好地确认共变量的分布是平衡的。(2)共变量分布不重合分析方法:用共变量分布的柱状图判断共变量分布的重合性,或者贝叶斯非参数回归模型。经验:丢弃不重合的部分这两个必须进行检验。(3)选择性偏差与敏感性分析选择性偏差:比如,处理变量是促进就业的政策,影响

27、就业的共变量为性别、教育程度、 学历专业,证书等。拥有数个证书的就业者,可能会比其他人更为积极地参与提升就业机会 的活动,进而选择加入受测(自我选择偏差)。这属于显性的共变量造成的显性偏差,可以 通过控制共变量解决。如果存在隐藏的共变量,则就是隐藏性偏差。分析结果在存在选择性偏差的合理范围内是否依然稳健有效,这就是所谓的敏感性分 析。敏感性分析即假定单元j和k拥有相同的共变量,它们接触处理发生比的比率(odds ratio)会介于1/和r之间,其中r 1。敏感性分析判断标准:当r数值越大,则该研究的敏感性越低;当r数值越小,则该 研究的敏感性越高。一般来说,只要r 2,则该研究就可以声称已免除

28、隐藏性偏差的影响。敏感性分析,需要进行无效假设检验。重点检验在逐步增加r后,处理效用匚还是有效 的。原假设:匚=0不存在处理效应;备择假设:c 0存在处理效用。统计软件中Wilcoxon符号秩检验法、Hodges-Lehmann点估计和信用区间检验法,都可 以进行敏感性分析。任一项敏感性分析验证研究的因果推论不受潜在选择性偏差的影响,就 是一项完整且可信赖的研究。例子:儿童血液含铅水平与他们父母职业的关系由于只选择两个共变量:儿童年龄和居住环境,可能存在隐藏性偏差。敏感性分析结果 如表2所示,表2儿童血铅水平的敏感性分析结果rSig+Sig-人r+r -CI+CI -10.00010.0001

29、15159.520.520.00180.000110.2519.54.527.530.01360.0001823132.540.03880.00016.525-1374.250.04680.0001625-1.538.54.350.05020.0001625.5-238.550.07404.35时,Wilcoxon符号秩检验显 著性水平的上界才大于0.05,才能接受原假设,处理效用是无效的,隐藏性偏差的影响, 致使匹配的两个单元接触处理发生比的差异超过4.35倍时,才能改变原先对于处理效用的 结论。因此,该研究对于隐藏性偏差影响的敏感性是非常低的,研究结论是可靠的。u u 一 一 -一 一 一

30、 一 一 ._对于r+、r-分力别是Hodges-Lehmann点估计的上介和下介。CI +、CI-分力别是Hodges-Lehmann95%信用区间的上界和下界。一直到检验4时,点估计的上界和下界分别 是6.5和25,95%的信用区间的上界和下界-1,37包含0,表示这个点估计是统计不显著的, 接受了原假设,因此,该研究对于隐藏性偏差影响的敏感性是非常低的,研究结论是可靠的。(4) 匹配后估计平均处理效用平均处理效用ATE由实验组平均处理效用ATT和对照组平均处理效用ATC组成。1.13f - aTE - ni ATT + no ATC ni + n oni和no分别是实验组和对照组样本量。

31、1.13的平均处理效用也可以通过简单的回归方程获得,依照结果变量的类型,使用不 同的回归方程来估计处理效用,如果结果变量Y是连续型变量,Y -a +tZ + XrP +e1.14如果匹配后的共变量是平衡和重合的,则式1.14与1.13的处理效应T在理论上是完全 一致的。(5) 平均处理效用的标准误差一般使用Bootstrap重复抽样的方式获得标准误差,一般建议5000次的重复抽样。下篇:倾向值匹配法R软件应用下面几种常用的R程序包,包括Matchit、Matching、optmatch和rbounds、Matchit可以实现的匹配方法有最近邻匹配、马氏距离匹配、卡尺匹配、精确匹配、子分类匹配、

32、 最佳匹配和完全匹配法,同时可以实现若干匹配后的检验,匹配后的处理效用需要Zelig 软件包。Matchit软件包已经升级到3.0.1版本,包含以下7个程序,其中matchit是主程序。get_matcheshelp.matchitis.matchitlalondematch.datamatchit :主程序user.prompt .1、matchitmatchit(formula, data, method = nearest, distance = logit, distance.options = list(), discard = none, reestimate = FALSE, .

33、)2、程序讲解(1) 数据的读写(建议整理好后放在XT里)改变工作路径,把TXT文件放在工作路径里。rt - read.table( exam.txt ,head=TRUE)(读取 TXT 文件,第一行为标题行所以 head=TRUE。把exam.TXT文件转换名为rt的r数据文件)rt (显示数据)Im.sol - lm(WeightHeight,data=rt)(提取 weight 和 Height 两歹U)summary(lm.sol)(最小二乘法)(2) matchit(应用 Lalonde数据)library(Matchit)# 调用 Matchit 程序包data(lalonde)

34、# load the Lalonde datauser.prompt()# Press to continue# matchit使用的匹配方法,使用Logit逻辑回归进行匹配(The default is logistic regression )# perform nearest neighbor matchingm.outl - matchit(treat re74 + re75 + age + educ, data = lalonde,method = nearest, distance = logit)# method = subclass系统默认分6个子类m.outl - match

35、it(treat re74 + re75 + age + educ, data = lalonde, method = subclass , distance = logit)# method = exactm.out1 - matchit(treat re74 + re75 + age + educ, data = lalonde, method = subclass , distance = logit)# method = full,m.outl - matchit(treat re74 + re75 + age + educ, data = lalonde, method = full

36、, distance = logit)# method = geneticm.outl - matchit(treat re74 + re75 + age + educ, data = lalonde, method = genetic, distance = logit)# method = optimalm.outl - matchit(treat re74 + re75 + age + educ, data = lalonde, method = optimal, distance = logit) user.prompt()#使用马氏距离进行匹配m.outl - matchit(tre

37、at re74 + re75 + age + educ, data = lalonde, method = nearest , distance = mahalanobis) user.prompt()#1:1匹配和1:2匹配m.outl-matchit(treatre74 + re75+ age + educ, data=lalonde,method=nearest ,distance = logit,ratio=1)m.outl-matchit(treatre74 + re75+ age + educ, data=lalonde,method=nearest ,distance = log

38、it,ratio=2)#显示1:1最近邻匹配法结果的程序m.out1结果为:Call:matchit(formula = treat re74 + re75 + age + educ, data = lalonde, method = nearest, distance = logit, ratio = 1)Sample sizes: Control TreatedAll429185Matched185185Unmatched2440Discarded00由于只有185个实验组样本,使用1:1最近邻匹配法进行匹配,对照组样本也是185个。# obtain matched data 获得匹配数据

39、m.datal - match.data(m.outl)m.datal#显示处理组、对照组中匹配的各185个数据。有了匹配数据,就可以在使用DID方法。# summarize the resulting matched data 对匹配数据进行统计 summary(m.data1)(3) 匹配检验 平衡检验:统计量使用summary()语句计算各个共变量的平衡统计值,standardize=TRUE语句表示标准 化这些平衡统计值,主要使用Std. Mean Diff这个统计值进行诊断。library(MachIt) data(lalonde) user.prompt()# 1:1 Neares

40、t neighbor matchingm.out - matchit(treat re74 + re75 + educ + black + hispan + age, data = lalonde, method = nearest)# balance diagnostics through statistics 平衡的统计诊断 s.out - summary(m.out, standardize=TRUE) print(s.out) user.prompt()检验结果分析Summary of balance for all data:匹配前各个共变量在实验组和对照组差异的描述, distan

41、ce和black两个变量的差异性较大Means TreatedMeans ControlSD Control Std.Mean Diff.eCDF Meddistance0.56580.18720.23081.79190.4017re742095.57375619.23656788.7508-0.72110.2335re751532.05532466.48443291.9962-0.29030.1355educ10.345910.23542.85520.05500.0228black0.84320.20280.40261.75680.3202hispan0.05950.14220.3497-0

42、.34890.0414age25.816228.030310.7867-0.30940.0827eCDF Mean eCDF Maxdistance 0.37340.6435re740.22480.4470re750.13420.2876educ0.03470.1114black0.32020.6404hispan0.04140.0827age0.08130.1577Summary of balance for matched data:匹配后各个共变量在实验组和对照组差异的 描述,distance和black两个变量的差异性依然较大,hispan变量的差异在变大。可以说 明匹配后的这三个共变

43、量的改善程度不好。需要做模型、匹配方法等方面的在调整。Means TreatedMeans Control SD Control Std.Mean Diff.eCDF Meddistance0.56580.36490.25980.95090.2378re742095.57372466.30394245.6943-0.07590.0432re751532.05531960.35482948.2552-0.13300.0703educ10.345910.47033.2067-0.06180.0405black0.84320.47030.50051.02310.1865hispan0.05950.2

44、7570.4481-0.91180.1081age25.816226.054110.1910-0.03320.0649eCDF Mean eCDF Maxdistance0.21170.3892re740.07800.2919re750.07620.2000educ0.04950.1459black0.18650.3730hispan0.10810.2162age0.07060.1784Percent Balance Improvement:Std. Mean Diff.eCDF Med eCDF MeaneCDF Maxdistance46.935840.796043.310039.5219re7489.478881.483265.285634.7050re7554.164648.145043.174930.4700educ-12.4957-78.0576 -42.7023-31.0442black41.763641.763641.763641.7636hispan-161.3463-161.3463 -161.3463-161.3463age89.258021.608013.2585-13.0931平衡检验:图形# bal

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号