优势分析原理和基础.ppt

上传人:小飞机 文档编号:5223998 上传时间:2023-06-15 格式:PPT 页数:27 大小:593KB
返回 下载 相关 举报
优势分析原理和基础.ppt_第1页
第1页 / 共27页
优势分析原理和基础.ppt_第2页
第2页 / 共27页
优势分析原理和基础.ppt_第3页
第3页 / 共27页
优势分析原理和基础.ppt_第4页
第4页 / 共27页
优势分析原理和基础.ppt_第5页
第5页 / 共27页
点击查看更多>>
资源描述

《优势分析原理和基础.ppt》由会员分享,可在线阅读,更多相关《优势分析原理和基础.ppt(27页珍藏版)》请在三一办公上搜索。

1、优势分析:在多元回归中比较预测因子相对重要性的新方法,David V.Budescu 报告人:周浩、杨英,在使用多元回归的过程中,研究者不仅要得出一个包含多个自变量的回归等式,而且要指出哪个自变量相对来说是最重要的,这样的结果实际应用中才更有意义。在理想的情况下,各个自变量之间没有相关(或者相关极小),那么,因为各个回归系数都是标准化的,其相对重要性就是标准化回归系数的平方。大多数情况下,各个自变量之间存在着不可忽略的相关,这个时候重要性的比较就不能简单地从标准化回归系数得出。对此,不同的人采用了不同的方法:,1、将自变量与因变量的零次相关 或平方相关 作为评判自变量重要性的标准。其对重要性的

2、定义为一个自变量独特、直接的预测能力,忽略模型中其他所有的自变量。2、由于不恰当地确定模型,无论是遗漏了重要的自变量,或者将不重要的自变量纳入到了模型中都会导致,模型的失真,所以应该认为,能够纳入到一个恰当模型中的所有自变量都是同等重要的。,3、自变量的重要性应为某个自变量在控制其他变量不变的情况下其对于完整模型的贡献:3.1增溢法:考察控制其他变量情况下,某自变量变化一个单位,导致因变量变化的比例。例如以某自变量的回归系数与其数学期望乘积的绝对值作为检验标准。形象的理解为自变量的弹性。,3.2方差法:在控制其他变量的情况下,比较各自变量对于因变量方差贡献的大小3.2.1由方差的可加性得:即所

3、有自变量对因变量的贡献可以分解为各个自变量在控制其他自变量情况下对模型贡献,这样的分解式有 个,而某个自变量的重要性即为在 个分解式中它的贡献的平均值。EG,3.2.2某自变量的重要性即为其它对因变量的直接效应(与因变量的相关系数)与总效应(标准回归系数)的乘积。某自变量的重要性可量化为其与因变量的相关的平方,由于自变量之间的相关,所以:即把各自变量的标准化回归系数平方中与要考察变量相关的部分提出来相加,即乘以其与要考察自变量之间的相关系数。,上述方法的缺陷1、对于重要性的定义过于狭窄、模糊甚至有问题,限制过于严格,与人们实际应用相距太远。2、不同定义之间难以相容,无法比较、交流研究结果,甚至

4、根据不同的定义得出结论完全不同。3、很高的模型依赖性,在不同的子模型中得出相对重要性的结论可能完全不一样,所以重要性的检验应该在全模型和子模型中结论一致。4、重要性的比较应该是“净”的,如果变量之间高度相关,根本不可分,更无法比较分离出的重要性,那么此时重要性的比较就没有任何意义,所以应该首先区分可以比较和不能比较相对重要性的模型。,比较相对重要性应遵循的原则:1、重要性应定义为自变量在预测因变量时对于减少误差的贡献。2、应该能够对自变量的相对重要性作直接比较而非推断比较。3、重要性应该能够反映直接效应(自变量的单独效应)、总效应(纳入其他所有变量)、偏效应(纳入其他部分变量),即要求重要性的

5、结论在全模型与子模型中保持一致。,优势分析的质的定义优势是成对的关系,如果全模型包括p个自变量,那么就有p(p-1)/2对优势的比较;确定 和 优势关系的充分必要条件是:代表除要比较的两个自变量之外的其他自变量所构成的任何子集(包括空集)。,优势分析定义的变式:一个变量比另一个变量重要即它在任何子模型中对因变量的预测能力都大于另一个。,优势分析的量化:由两个自变量的比较推广到所有自变量的同时比较时,是除自身外的其他所有p-1个变量构成的所有子集(包括空集),表示在由k(0=k=p-1)个自变量构成 时,该自变量的单独贡献的平均值。将其累加求平均数,即该自变量在所有子模型下的贡献平均值。,EG:

6、当有3个自变量时:,数据实例:,BACK,计算和样本理论,根据优势方程的定义,对于要进行优势分析的每一对变量,每一个变量都需要和其他许多偏模型进行多元相关系数平方的比较。如果要包括所有的子模型,则一个变量要进行p(p-1)/2个配对比较。因此,计算一次优势分析必须先计算出2p1个多元相关系数平方值。让 p 表示所有子集的多元相关系数平方的(2p1)1向量,让 Aij 表示在进行 xi 和 xj 的对比时,与其有关进行对照的2p2个模型的(2p2)(2p 1)矩阵。ij=Aij p,ij就是包括所有有关差异的一个(2p1)1向量。,表4表示的是一个p=3的例子的计算。这个表呈现了向量p,三个矩阵

7、的比较,A12、A13和 A23,即分别比较了x1和 x2、x1和 x3、x2和 x3,以及向量 12、13、23之间的不同。,对于小样本模型还没有很好的精简的推理方法,只有一个近似的解决方法,即去“jacknife”那个估计值。这种方法大致过程是:每次都忽略一个观测值,这样我们就可以得到n个对所有相关的多元相关系数平方值的伪独立估计,通过对方差协方差矩阵的估计,我们就可以得到近似的置信区间。,对大样本进行优势分析,我们可以用一个例子来说明。我们用社会经济地位(SES)、IQ和成就动机(nAch)来预测大学的GPA成绩。如图:,表:样本中的相关矩阵和多元回归系数平方值的向量。,表6呈现了三对预

8、测变量相比较的95%渐进置信区间值。判断的标准是如果某对相比较差值的置信区间的下限都为非负的,那么xi D xj;如果某对比较的置信区间的上限都为非正的,那么和 xj D xi,如果某对比较的置信区间跨过零点,那么它们的优势关系无法确定。,接着,我们再来看一个p=4的例子,用取得博士以后的年限(x1)、出版著作的多少(x2)、性别(x3)和被引用的频率(x4)来预测薪水(y):,从表7和表8来看,我们可以得出:,由简单的相关系数我们可以得出:pyx1 pyx4 pyx2 pyx3,根据标准回归系数的排序我们可以得出:b1 b4 b3 b2,根据变量的有效性我们可以得出:U(x4)U(x1)U(

9、x3)U(x2),另:当数据不能完全满足优势分析条件时,需要确定自变量的重要性关系,可以考虑采用“理想点”法:即选取每K值子模型下最大(或者最小)的自变量贡献平均值,从而构建出一组最优(或最劣)的理想自变量的贡献平均值,通过计算、比较其他自变量与其的相关系数大小,从而确定它们的重要性关系。TO,小结,回归分析可以分成三个步骤:,选择模型 在许多验证性因素分析中,研究者要在前人的理论和研究上来建立一个正确的模型,研究者都努力提出对Y最有预测效度的预测量。完成建立模型并不意味着可以马上进行优势分析,因为优势分析必须在一个正确模型的条件下进行。如果这个方程模型不正确,则优势分析的结果也会出现错误。这

10、样会带来一定的问题,尤其是从模型中不正当地删除一些预测变量时。前文中提到,往方程中添加一些不相关的变量是不会影响到优势分析的结果的,但是如果把方程中的一些变量删除掉,则会引起回归系数的估计产生偏差。,变量间质的关系的确定有一套关于把与每对预测变量相关的模型合并起来的严格标准。这种方法有两个很明显的优点:(a)优势分析的操作性定义更符合“优势”的直接含义;(b)它排除了许多由于不同变量之间和不同子模型之间的不一致带来的混乱。回归分析和优势分析中有一个最大的不同就是对结果的描述和推论。我们经常可以看到一个研究者在寻找最佳的方程模型时会报告无数个检验显著,并从对样本的估计中进行推论。但是在一定样本中,如果xi 优于xj并不能保证在其他的样本中也能得到同样的结论(例如表6)。使用优势分析的时候要时刻记住这点区别。,质的优势分析 优势分析是通过变量之间的两两配对比较而得出来的,即最后要得出一个p个预测变量的排序。,量的优势分析 事实上,这个最后的步骤是利用一个已经存在的方法进行量的分析。然而,要强调的是,这个量的分析必须是在一定的质的分析的结论上才有意义。,THANK YOU!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号