浅显易懂逻辑回归分析ppt课件.ppt

资源描述

《浅显易懂逻辑回归分析ppt课件.ppt》由会员分享，可在线阅读，更多相关《浅显易懂逻辑回归分析ppt课件.ppt（21页珍藏版）》请在三一办公上搜索。

1、Logistic 回归分析,SPSS操作实例,3,Logistic回归分析的用途,1,2,结果分析,4,Logistic回归分析的意义,1.逻辑回归（logistic regression）是用来做什么?,估计某事物的可能性例：比如某一套衣服今天能否卖出去？或者某一个广告能否被用户点击?我们希望得到这个数值来帮助决策衣服上不上架，以及广告展不展示。适用于流行病学资料的危险因素分析例：比如吸烟、年龄、性别是否为肺癌的危险因素或是保护因素？比如哪些因素导致了人群中有的人患胃癌而有的人不患胃癌？,2.什么是逻辑回归（logistic regression）?,简单的来说它是线性回归的一种，事实上它是

2、一个被logistic方程归一化后的线性回归。在许多实际问题中，比如流行病学常研究的二分类因变量（患病与未患病、阳性与阴性等）与一组（x1x2.xn）自变量的关系这类问题时，我们需要回归产生一个类似概率值（0-1）之间的数值来进行预测。这种情况下这个数值必须是01之间，而线性回归就显得无能为力了，因此人们引入了Logistic 方程来做归一化。使得因变量的取值框定在了01之间。这种变换方法我们就称之为逻辑回归。,3.SPSS实例本次以广泛使用的二分类logistic回归为例为大家介绍SPSS的操作过程。例：为研究急性肾功能衰退（ARF）患者的危险因素，获得了422名住院患者的临床资料，本资料

3、共涉及29个变量分别为：sex、age、社会支持、慢性病、手术、糖尿病、瘤黄疸、透析方式、死亡等，其中透析方式为多分类变量，有4个水平。（逻辑回归方程运算具体是怎么做的并不重要，对使用者来说，我们就把它当成一条程序命令就好。逻辑回归方程推导，求解方法可详见卫生统计学）。,（1）操作过程如下（见数据文件“logistics-1.sav”）,一般过程菜单选择分析回归二元logistic弹出逻辑回归主对话框,逻辑回归主对话框如下图所示,有进入法、前进法和后退法三大类，三类之下又有细分。,“分类”钮：如果你的自变量是多分类的（如血型等），你必须要将它用哑变量的方式来分析，那么就要用该按钮将该变量指定

4、为分类变量,如果有必要，可用里面的选择按钮进行详细的定义，如以哪个取值作为基础水平各水平间比较的方法是什么等。当然，如果你弄不明白，不改也可以，默认的是以最大取值为基础水平，用“指示符”（每一类与参照类进行比较）做比较。,“保存”钮：起到将中间结果存储起来供后续分析的作用，如右图所示，共有预测值、影响强度因子和残差三大类。,“选项”钮：这一部分非常重要，在这里我们可以对模型作精确定义，还可以选择模型预测情况的描述方式，如“统计量和图”中的“分类图”就是非常重要的模型预测工具，“估计值的相关性”则是重要的模型诊断工具，“迭代历史记录”可以看到迭代的具体情况，从而得知你的模型是否在迭代时存在病态，

5、下方则可以确定进入和排除的概率标准，这在逐步回归中是非常有用的。,“选项”框：这一部分我们可以对模型作精确定义，还可以选择模型预测情况的描述方式。“输出”框：系统默认为输出每一步骤的统计图、统计表及统计量。“步进概率”是逐步筛选变量的概率水准,本例的具体的分析操作如下：1.分析=回归=二元logistics.2.因变量框：选入“死亡”3.协变量框：选入sex/age/感染4.方法：进入5.“分类”钮：分类协变量：透析方式(指示符（第一）)6.“保存”钮：预测值：概率、组成员7.“选项”钮：统计量和图：分类图、迭代记录、优势比（OR）的95%可信区间输出：在最后一个步骤中在模型中包括常数8.

6、“确定”钮：单击,4.结果分析,左表为记录处理情况汇总，即有多少例记录被纳入了下面的分析，可见此处因不存在缺失值，422条记录均纳入了分析。,主要结果解释,二分类变量，本例为变量“死亡”，有两个水平，变量标记为：0=“N”（未死亡）；1=“Y”(死亡)。,此处已经开始了拟合，块0拟合的是只有常数的无效模型，上表为分类预测表，可见在259例观察值为N的记录中，共有259例被预测为N，163例Y也都被预测为N，总预测准确率为61.4%，这是不纳入任何解释变量时的预测准确率，相当于比较基线。,块 0:起始块,左表为在块 0处尚未纳入分析方程的侯选变量，所作的检验，表示如果分别将他们纳入方程，则方程的

7、改变是否会有显著意义可见如果将“age，社会支持、手术、糖尿病等（sig.0.05）变量”纳入方程，则方程的改变是有显著意义的。,块 1:方法=输入,第一个表为全局检验的最后一步，作的步骤、块和模型的检验，可见3个检验都是有意义的。第二个表为分类表，它表示了每一步的预测情况汇总，展示了对疾病结局是否死亡进行判别分类，以预测概率0.5为判别分界点（cut value），可见准确率由“块 0”的61.4%上升到了91%，效果不错。,1对于死亡有显著影响的变量（p0.05）有“肿瘤、CR、昏迷”。2 B为偏回归系数。3 SE为偏回归系数的标准误。4 wald统计量用于检验总体偏回归系数与0的差别有无统计学意义。5 Exp(B)为优势比，或比数比（OR）其中，肿瘤、昏迷是危险因素。,判别分类图：,对死亡(“N”（未死亡）；“Y”(死亡)进行判别分类，以预测概率0.5为判别分界点，每个符号代表5例。横轴表示对死亡的预测概率，纵轴表示频数。当预测的概率值大于0.5时，则预测结果为Y，反之为N，由上图可见，该模型预测的是比较好的。,Thanks!,

展开阅读全文