《离散状态变量的回归.ppt》由会员分享,可在线阅读,更多相关《离散状态变量的回归.ppt(42页珍藏版)》请在三一办公上搜索。
1、离散因变量的回归,杨 旭,二、因变量是离散状态的回归,1、举例(1)研究“一个人在家是否害怕生人来访”,用Y表示,则:,二、因变量是离散状态的回归,1、举例(2)研究“人们对某项政策的态度”,用Y表示,则:,二、因变量是离散状态的回归,1、举例(3)一只球队的成绩,二、因变量是离散状态的回归,2、离散状态因变量回归方程的意义(两状态的情况),能否进行这样的回归呢?,二、因变量是离散状态的回归,2、离散状态因变量回归方程的意义(两状态的情况)Di的期望值:,二、因变量是离散状态的回归,2、离散状态因变量回归方程的意义(只处理两状态)我们又知道:所以有,即,回归值=“状态1”出现的概率,二、因变量
2、是离散状态的回归,3、离散状态因变量回归遇到的障碍 可以对下式进行OLS估计吗?,二、因变量是离散状态的回归,3、离散状态因变量回归遇到的障碍 答案:可以,但有问题!,二、因变量是离散状态的回归,3、离散状态因变量回归遇到的障碍(1)误差非正态分布 而X是非随机的,或者虽然是随机的,但不一定是正态的。即使X是随机的且是正态的,i也不会是正态的。,二、因变量是离散状态的回归,3、离散状态因变量回归遇到的障碍(2)异方差 当X非随机时,有,二、因变量是离散状态的回归,3、离散状态因变量回归遇到的障碍(2)异方差 显然,方差随X的变化而变化,二、因变量是离散状态的回归,3、离散状态因变量回归遇到的障
3、碍(2)异方差 所以,应该采用“可行的广义最小二乘法”,而不是“普通最小二乘法”,二、因变量是离散状态的回归,3、离散状态因变量回归遇到的障碍(2)异方差 步骤:A.使用OLS进行估计,并得到拟合值 B.在原方程左右同时除以 之后,再进行OLS估计;,二、因变量是离散状态的回归,3、离散状态因变量回归遇到的障碍(2)异方差 或者:依然用OLS,但使用怀特异方差一致标准误来进行T检验、区间估计;,案例:全美橄榄球联盟赛的预测,比赛取胜的概率与“让球数”(Point Spreads)之间的关系:,What Point Spreads Say About the Probability of Win
4、ning in the NFL:I,二、因变量是离散状态的回归,3、离散状态因变量回归遇到的障碍(3)取值的限制 无法保证 的值在0到1之间!,二、因变量是离散状态的回归,4、解决方法 在线性回归与二值结果之间,引入一个连续取值的潜变量(latent variable)例如,在前例中,引入一个“实力”潜变量,Z。,二、因变量是离散状态的回归,4、解决方法“让球数”直接的与“实力”相关联,而“实力”与“结果”相关联。,注意:阀值不一定为0!,二、因变量是离散状态的回归,4、解决方法 这意味着:,二、因变量是离散状态的回归,4、解决方法 取胜的概率:,二、因变量是离散状态的回归,4、解决方法 同理
5、,输的概率:,二、因变量是离散状态的回归,4、解决方法 这个F(w)会是什么样呢?必需满足如下特征:,二、因变量是离散状态的回归,4、解决方法 这个F(w)会是什么样呢?有两种处理方法:(1)Probit模型(2)Logit模型,二、因变量是离散状态的回归,4、解决方法(1)Probit模型 设 服从标准正态分布,从而有,表示为:,二、因变量是离散状态的回归,4、解决方法(2)Logit模型表示为:,Probit&Logistic Model,Logit Model&Linear Probability,二、因变量是离散状态的回归,5、参数估计 极大似然估计(MLE:maximum likel
6、ihood estimate),二、因变量是离散状态的回归,5、参数估计 极大似然估计(MLE:maximum likelihood estimate),二、因变量是离散状态的回归,5、参数估计 极大似然估计(MLE:maximum likelihood estimate)通常没有解析解,只有数值解!,二、因变量是离散状态的回归,5、参数估计 极大似然估计(MLE:maximum likelihood estimate)参数估计量的标准差的估计(略),二、因变量是离散状态的回归,6、显著性检验(1)整体的显著性检验 似然比,二、因变量是离散状态的回归,6、显著性检验(1)整体的显著性检验预测成
7、败分析表:,二、因变量是离散状态的回归,6、显著性检验(1)整体的显著性检验 预测成功的比率=(471+20)/690但该指标并不能说明太多的问题!,二、因变量是离散状态的回归,6、显著性检验(1)整体的显著性检验 TPR(True Positive Rate):正确预测D=1的比率。这里,TPR=20/203;该值表示“取真的概率”,所以该值越高越好,二、因变量是离散状态的回归,6、显著性检验(1)整体的显著性检验 FPR(False Positive Rate):把D=0的个体,错误预测为D=1的比率。这里,FPR=16/487;该值表示“取伪错误”,所以越小越好。,二、因变量是离散状态的回归,6、显著性检验(1)整体的显著性检验 但上述两个指标之间是“鱼和熊掌”的关系,所以在选择模型时,应该劝和利弊!,二、因变量是离散状态的回归,6、显著性检验(2)单个变量的显著性检验 Z统计量(单个变量的检验)LR检验、Ward检验(联合检验),Probit Estimates of The Probability of Holding Interest-Bearing Assets,What Point Spreads Say About the Probability of Winning in the NFL:III,