《Logistic模型及建模流程概述.docx》由会员分享,可在线阅读,更多相关《Logistic模型及建模流程概述.docx(11页珍藏版)》请在三一办公上搜索。
1、Logistic模型及建模流程概述1. Logistic模型介绍1.1问题的提出在商业及金融领域中,存在这么一类问题,问题中需要被解释的目标量通常可以用YES 或者NO两种取值来表示,如:、 卖出了商品为YES,未卖出商品为NO;盘 顾客对超市的本次宣传活动做了响应为YES,没有任何响应为NO;、 信用卡持卡人本月逾期付款为YES,按时还款了为NO;等等;对于这类问题的分析,我们不可以采用标准的线性回归对其进行建模分析,是因为目标变量的二元分布违背了线性回归的重要假设 模型的目标是给出一个(0,I)之间的概率,而标准的线性回归模型产生的值是在 这个范围之外1.2Logistic 模型ln( P
2、TPPTP对于上述问题,我们提出了 logistic模型:)=a+z。工i=Logistic模型可以保证:口 x i值在-8和+ 8之间;估计出来的概率值在0和1之间;卷 与事件odds( odds = p /(1 - p)直接相关;可以很好地将问题转化为数学问题,并且模型结果容易解释;1.3Logistics回归的假设卷概率是自变量的logistics函数exp(p + p x + P x )p = 01_1nn1 + exp( p + p x + p x )011n n这样得到的概率似乎没有实际意义,只是反映一种趋势,P +P X +& X比较 01 1大时p就会比较大取log值得到:/
3、n (y*logodds这样可以线性化,我们把这模型称为linear in the log-odds模型假设:1) 没有重要变量被忽略,不包含使得系数有偏的相关变量2) 不包含外来变量,包含的不相关变量会增加参数估计的标准误差, 使得系数有偏。观测值独立自变量的观测值没有误差log=P + P X + + P X011n n但是却不会1.4最大似然准则抛一枚硬币10次,结果如下:T H T T T H T T T H假设结果独立,考虑得到的结果的概率,P(T H T T T H T T T H)= P(T)P(H)P(T)P(T)P(T)P(H)P(T)P(T)P(T)P(H)=P(H)3 1
4、-P(H)7,如果我们能计算出参数 P(H)的值,就能得到掷硬币结果的概率的数值。如果我们已知掷硬币的结果,如何得到P(H)的值呢?假设P=P(H),y=硬币头像一面朝上的次数,n=掷硬币的次数似然函数给出了掷硬币结果的似然值,它是P的函数;L(P I J) = Py (1 - P) n-y最大似然估计指出P的最佳估计值是使得似然函数最大的值。为了简化计算,代替最大化L(P),我们对L(P)取log值,然后取最大值,log是单调 递增函数,这样使得L(P)最大的P的值也是使得log(L(P)最大的值。最大化log似然函数,使:L(P I Y) = Py (1 - P)n-y解出P值:p=yn1
5、.5将最大似然估计用于logistics回归令Y=(y,y,y ,,y)是随机变量(Y ,Y,Y ,.丫)的一组样本值, 123n123n然 后 似 然 函 数 可 以nwhereL (Y ) = n 兀八(1 -兀 i )1 -儿i = 1,但是假如样本值不独立的话,此步骤就存在P ( Y =1 )二兀i问题。对似然函数取log值,得:一一 nl(Y) = log(n 心,(1兀卜-七)iii=1n=E log(i = 1冗y.Ii(1-气)=i=1兀yi log % ) +iX log(1 -K )ii = 1 冗iog(二)=6 +6 %令 1 -K 01 iiLogistics回归的似
6、然等式l (6 ,6 IY) = Xy(6 +6 %)-X G + exp( 6 +6 % )01i 01 i01 ii=1i=1对上式的参数取导数:61 ( 6 0,61 | Y)= X y - X eXp( 6 n + 6j) d60I i 11 + exp( 60 + 61 %.)-Xi=1% exp( 6 + 6 % )1 + exp( 6 + 6 %.)使上面两式为零,解出参数的似然估计值。这些方程都是非线性的,所以利用迭代可以找出答案。这个过程也有可能是不收敛的。在介绍完logistic模型后,我们开始按照数据建模的流程来对各个分析环节进行讨论。2, 模型设计(Model Desi
7、gn)2.1建模目标我们在对数据做分析之前,首先需要考虑的是构造模型的商业目的所在。比如说我们针 对汽车贷款的数据进行分析,是希望能够估计出每笔汽车贷款人可能会发生违约的概率,从 而建立一个信贷审批的决策流程。如果没有明确模型的目的和用途,模型的构建工作就难进 行下去。除了明确建模商业目的外,我们还需要确定模型的实施事项。比如说构建好的模型是实 验模型,局域范围内使用,还是全面推广;模型的使用时间是多长;,这些问题都需要 事先考虑清楚。总的来说,我们在建模分析模型之前,需要考虑好:,我们为什么需要模型?、如何使用我们建好的模型?谁将使用我们的模型?模型什么时候需要?2.2数据明确了建模目标之后
8、,我们需要系统地整理我们的数据或者说样本了。我们需要了解:、 我们可能可以运用的数据有哪些; 哪些是内部数据源的数据,哪些是需要向客户索取的; 我们需要多久的数据;数据有部分缺失怎么办;如何抽取能够代表总体的无偏样本;是不是每个变量都有现实意义;我们还需要单独针对目标变量进行分析。在解决某些问题的时候,目标变量并不能很容 易的明确下来,我们需要根据实际的业务经验,将数据做一些统计、变换,得到建模所需的 目标变量值。比方说,我们在预测每位汽车贷款人发生违约的概率时,我们需要实现定义哪些贷款人 发生过违约,那什么样的行为才能定义为违约呢?在美国,通常定义联系9个月以上没有还 款的行为定义为违约事件
9、,在建模时,我们将这样一批样本的目标变量定义为ft剩余样 本的目标变量定义为“0”,然后再用logisitic模型对其建模分析。在建模过程之前,我们需要对抽取出来的样本进行分成训练集、验证集和测试集,分别 用于不同的建模分析阶段。3, 解释变量分析(Exploratory analysis )3.1 变量筛选(Variable Reduction)在整理完我们允许使用的变量数据后,接下去的任务就是从大量的数据中找出对目标变 量有解释意义的变量来。我们可以通过下述的几个方面对变量进行分析,初步筛选。,VIP 变量(VIP variables)在解决某些实际问题的过程中,因为业务人员对变量选择可能
10、有一定的要求,他们因为 实际的业务需求明确规定了哪些变量必须进入模型;另外,一些有类似建模经验的建模人员 也可能会提出模型很大可能会用到某些变量,因此我们在变量筛选时首先需要建立一个VIP 变量组,该组的变量不需要经过筛选,直接进入模型。,无监督的变量筛选(Non-supervised variable reduction)无监督的变量筛选是指在筛选变量时不需要利用目标量信息的筛选方法。代表方法有-聚类分析-主成分分析、有监督的变量筛选同理,有监督的变量筛选是指需要结合目标变量的信息才能进行的筛选方法。我们一般 米用的有:-相关性分析- 建立回归模型-信息值3.2变量分析4.模型选择(Mode
11、lSelection)在经过一轮变量的预筛选之后,我 们需要专门针对筛选出来的变量 进行更进一步的分析。如何衡量模型是否有效?我们下面介绍几种在实际操作中常用的判断方法。4.1 Lift/Gain s chart优势:a.可以用业务语言非常容易地解释;b.易观察,对商业决策有直观的帮助劣势:a.无法直接用数字给出结果;b.图形和程度有时候会给人错觉;4.2 KS 值Kolmogorov-Smirnov Test,MAD= Sup|F_r - F_n|,MAD是ROC曲线之间差值的最大值。(如右图蓝线就是MAD)我们通过曲线图可以:、对整体样本按照转移率进行排序;、比较0, 1两种取值的分布;r
12、ank这种方式比较容易理解,现已经广泛运用于模型选择确定两种取值分布的分离度; 分析中,SAS中的NPAR1WAY过程步也可以直接计算出来。但是度量的效果受样本排序方式的影响较大,某一排序区间的样本分布也可能会对最终 的结果产生较大的影响。一般情况下,训练集与测试集的KS值差别不会很大,好的模型KS值一般在0.25, 0.75 区间内。4.3信息值即 A.K.A Kullback-Liebler 距离:“T (S)-九(S)l0嘿出这种方法与KS原理类似,也可以很容易地比较0, 1两种取值的分布,并且能够用于处 理字符型变量。但是与KS值一样,某一排序区间的样本分布也可能会对最终的结果产生较
13、大的影响;另外SAS中没有现成的过程步可以产生这个结果。4.4 Gini 系数% of Responders AcceptedNiNi+1100% of Non-responders Accepted由意大利统计学家Corrado Gini在1912 年提出,它通常被定义为GINI图中的A/(A+B) 的值。Gini系数是通过0,1两种分布的距离来衡量的,SAS里也有过程步可以直接计算,但是对 于非统计学家来说,这个名词较为专业了些。事实上,Gini系数一般在-1, 1区间内,很 多分析师习惯用C-value进行分析而忽略Gini系 数的分析。Receiver Operating Charac
14、teristic (ROC) Curve0%20%40%60%80%100% population accepted4.5 C-value & ConcordantC-value是ROC曲线下的区域:A+D。NConcordant = c tTiesC - Concordant +2t系数也可以C-value的值。C-value与Gini系数的原理类似,通过GiniC= Gini+0.5(1-Gini)一般情况下,C-value值在0,1区间内,好的模型该值一般在0.60.9之间。4.6 Total variance Reduction (TVR)TVR 二 Vd2sdsV 0TVR可以衡量模
15、型打分的排序能力,但是因为在计算时我们通常用卜0 N J、k=10/V0来代替TVR的值,所以我们得到只能是一种近似值。在实际处理过程中,我们可能还存在一些其他的度量方式,在这里就不一一赘述了。5. 建模的后续工作当我们构建了合适的分析模型后,我们还有一些后续工作需要完成:另外,在提交成果时我们还需将模型的设计书、代码、变量说明等材料打包一并提交, 并且上报模型的更新计划。6. 参考文献(reference)1 Agresti, A. (1990) Categorical Data Analysis,Wiley, Inc., New York2 Allison, P.D. (1999) Log
16、isticRegression:Using the SAS System, SAS Institute, Cary N.C.3 Collett, D. (1991) Modelling Binary Data Chapman & Hall, London4 Cox, D. R., and Snell, E.J. (1989) The Analysisof Binary Data, Second Edition. Chapman & Hall, London5 Dobson, A. (1990) An Introductionto GeneralizedLinear Models. Chapma
17、n & Hall, London6 Fleiss, J. (1986) Statistical Methods for Rates and Proportions.ley, Inc., New York7 Harrell, F. (2001) Regression Modeling StrategiesSpringer-Verlag, New York8 Hosmer, D.W., and Lemeshow, S. (2000) Applied Logistic Regression, Second Edition, Wiley, Inc., New York9 Klienbaum, D.G.
18、 (1994) Logistic Regression: A Self-Learning Text. Springer-Verlag, New York10 McCullagh, P., and Nelder, J.A. (1989) Generalized Linear Models, Second Edition. Chapman & Hall, London11 Menard, S. (2002) Applied Logistic RegressionAnalysis, Second Edition. Sage University Press, London12 Myers, R.,
19、and Montgomery, D., and Vining, G. (2002) GeneralizedLinear Models, Wiley, Inc., New York13 Pampel, F. (2000) LogisticRegression:A Primer, Sage University Press, London14 Pawitan, Y. (2001) In All Likelihood:StatisticalModelingand InferenceUsing Likelihood, Oxford University Press, Oxford15 Pregibon
20、, D. (1981) Logistic Regression Diagnostics. Annals of Statistics, 9, 704-724. (Can be ordered for $10 at www.imstat.org)16 Ryan, T. (1997) Modern Regression Methods.Wiley, Inc., New York17 Stokes, M., and Davis, C., and Koch, G. (1999) Categorical Data AnalysisUsing the SAS System, SAS Institute, Cary