《现代统计方法-回归分析.ppt》由会员分享,可在线阅读,更多相关《现代统计方法-回归分析.ppt(119页珍藏版)》请在三一办公上搜索。
1、现代统计方法,统计学的几个问题,1、自1969年设立诺贝尔经济学奖以来,已有42名学者获奖,而其中有2/3的人是统计学家、计量经济学家、数学家。2、目前的研究趋势是:从一般的逻辑推理发展到重视实证研究;从理论论述发展到数量研究。3、硕士和博士的学位论文,如果没有数量模型和分析,其文章的水平会有问题。,统计学的几个问题,李怀祖在管理学研究方法论中提到大量的统计研究方法:描述统计推断统计结构方程建模评估研究,SEM(Structural Equation Modelling,x1,x2,x3,x4,x5,x6,x7,1,2,3,1,2,y1,y2,y3,y4,1,4,3,2,x11,x21,x31
2、,x32,x42,x52,x63,x73,31,21,32,1,2,r11,r12,r22,r23,12,y11,y11,y32,y42,现代统计方法的种类,一、分类分析方法:1、聚类分析 2、判别分析 3、定性资料分析二、结构简化方法:1、回归选元法 2、聚类分析 3、主成分分析 4、因子分析 5、对应分析,现代统计方法的种类,三、相关分析方法1、定性资料分析2、回归分析3、典型相关分析4、主成分分析5、因子分析6、对应分析,现代统计方法的种类,四、预测决策方法:1、回归分析2、判别分析3、定性资料分析4、聚类分析,统计分析方法应用流程,现实经济问题,提炼具体问题确定欲达目标,根据定性理论设
3、计指标变量,搜集整理统计数据,选择统计方法构造理论模型,进行统计计算估计模型参数,修改,NO,YES,应用,分类研究,结构简化研究,相关分析研究,预测决策研究,教材,统计软件简介,SPSSSASS-PLUSMINITABTSPEVIEW,关于SPSS,SPSS(Statistical Package for the Social Science)即“社会科学统计软件包”,是世界著名的统计分析软件。1968年,3位斯坦福大学的学生开发了最早的SPSS统计软件系统,并基于这一系统于1975年在芝加哥合伙成立了SPSS公司,1984年开发出世界第一个统计分析软件的微机版本。,关于SPSS,于2000
4、年正式将英文全称更改为Statistical Product and Service Solutions,意为“统计产品与服务解决方案”,标志着SPSS的战略方向正在做出重大调整。目前全球拥有25万用户,分布于通信、医疗、银行、证券、保险、制造、商业、市场研究、科研教育等领域。是世界上应用最广泛的专业统计软件,关于SAS,SAS系统全称为Statistics Analysis System,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,至今,统计分析功能也仍
5、是它的重要组成部分和核心功能。,关于SAS,经过多年的发展,SAS已被全世界120多个国家和地区的近三万家机构所采用,直接用户则超过三百万人,遍及金融、医药卫生、生产、运输、通讯、政府和教育科研等领域。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,并在9697年度被评选为建立数据库的首选产品。堪称统计软件界的巨无霸。,关于SAS,SAS系统是一个组合软件系统,它由多个功能模块组合而成它们是:BASE SAS SAS/STAT(统计分析模块)SAS/GRAPH(绘图模块)SAS/QC(质量控制模块)SAS/ETS(经济计量学和时间序列分析模)SAS/OR(运筹学模块)SAS/I
6、ML(交互式矩阵程序设计语言模块SAS/FSP(快速数据处理的交互式菜单系统模块)SAS/AF(交互式全屏幕软件应用系统模块),关于SAS,由于SAS系统是从大型机上的系统发展而来,在设计上也是完全针对专业用户进行设计,因此其操作至今仍以编程为主,人机对话界面不太友好,并且在编程操作时需要用户最好对所使用的统计方法有较清楚的了解,非统计专业人员掌握起来较为困难。而且,SAS极为高昂的价格和只租不卖的销售策略使得实力不足的个人和机构只能对他望而却步。,关于S-PLUS,S,S-PLUS,R,S语言是由AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。它的丰富的数据类型(向
7、量、数组、列表、对象等)特别有利于实现新的统计算法,其交互式运行方式及强大的图形及交互图形功能使得我们可以方便的探索数据。目前S语言的实现版本主要就是S-PLUS。,关于S-PLUS,S-PLUS基于S语言,并由MathSoft公司的统计科学部进一步完善。作为统计学家及一般研究人员的通用方法工具箱,S-PLUS强调演示图形、探索性数据分析、统计方法、开发新统计工具的计算方法,以及可扩展性。S-plus有微机版本和工作站版本,它是一个商业软件,可以直接用来进行标准的统计分析得到所需结果,但是它的主要的特点是它可以交互地从各个方面去发现数据中的信息,并可以很容易地实现一个新的统计方法。,关于S-P
8、LUS,另外Auckland大学的Robert Gentleman 和 Ross Ihaka 及其他志愿人员开发了一个R系统,其语法形式与S语言基本相同,但实现不同,两种语言的程序有一定的兼容性。R是一个GPL自由软件,现在的版本是1.00版,它比S-PLUS 还少许多功能,但已经具有了很强的实用性,关于MINITAB,Minitab,Minitab同样是国际上流行的一个统计软件包,其特点是简单易懂,在国外大学统计学系开设的统计软件课程中,Minitab与SAS、BMDP并列,根据没有SPSS的份,甚至有的学术研究机构专门教授Minitab之概念及其使用。MiniTab for Windows
9、统计软件比SAS、SPSS等小得多,但其功能并不弱,特别是它的试验设计及质量控制等功能。,关于MINITAB,MiniTab目前的最高版本为V14.1,它提供了对存储在二维工作表中的数据进行分析的多种功能,包括:基本统计分析、回归分析、方差分析、多元分析、非参数分析、时间序列分析、试验设计、质量控制、模拟、绘制高质量三维图形等,从功能来看,Minitab除各种统计模型外,还具有许多统计软件不具备的功能矩阵运算,关于EViews,EViews,EViews是美国GMS公司1981年发行第1版的Micro TSP的Windows版本,通常称为计量经济学软件包。EViews是Econometrics
10、 Views的缩写,它的本意是对社会经济关系与经济活动的数量规律,采用计量经济学方法与技术进行“观察”。计量经济学研究的核心是设计模型、收集资料、估计模型、检验模型、运用模型进行预测、求解模型和运用模型。EViews是完成上述任务得力的必不可少的工具,关于EViews,正是由于EViews等计量经济学软件包的出现,使计量经济学取得了长足的进步,发展成为实用与严谨的经济学科。使用 EViews软件包可以对时间序列和非时间序列的数据进行分析,建立序列(变量)间的统计关系式,并用该关系式进行预测、模拟等等,关于EViews,EViews。虽然 EViews是由经济学家开发的,并且大多数被用于经济学领
11、域,但并意味着必须限制该软件包仅只用于处理经济方面的时间序列。EViews处理非时间序列数据照样得心应手。实际上,相当大型的非时间序列(截面数据)的项目也能在 EViews中进行处理,关于TSP,TSPTM是一种用于经济模型估算和模拟的完整语言。它是一个用于经济估算的世界标准。虽然TSP主要由经济学家开发并发展,但它的设计并没仅把它限制在经济领域。任何由相同变量的重复观测得到的数据,都可用TSP分析,线性回归分析1,回归分析,第一节 回归分析的背景第二节 一元线性回归分析第三节 多元线性回归分析第四节 逐步回归分析第五节 回归诊断,回归分析的相关背景,1、回归分析的由来:英国统计学家F.GAL
12、TON(1822-1911)和其学生K.Pearson(1856-1936)观察了1078对夫妇,以每对夫妇的平均身高为X,而取他们成年的儿子的身高为Y,得到如下经验方程:Y=33.73+0.516X,回归分析的相关背景,2、自1969年设立诺贝尔经济学奖以来,已有42名学者获奖,而其中有2/3的人是统计学家、计量经济学家、数学家。由获奖者克莱因发起的国际连接系统使用了7447个方程和3368个外生变量。英国剑桥大学的多部门动态模型有2759个方程和7484个变量。,回归分析的相关背景,3、回归分析的几个发展方向:1)、统计学的重要方法与回归的关系密切 时间序列分析(BOX-JINKINS)、
13、判别分析、主成分分析、因子分析、典型相关分析2)、回归分析自身的完善和发展 自变量选择、稳健回归、回归诊断、投影寻踪、非参数回归,回归分析的相关背景,3)、新的研究方法为回归分析提供了方法论 非参数统计、自助法、刀切法、经验贝 叶斯估计4)、各种有偏估计出现:岭估计、压缩估计、主成分估计、STEN 估计、特征根估计、偏最小二乘估计。,一元线性回归分析,1、一元线性回归模型2、回归模型的参数估计3、OLSE估计的性质4、回归方程的显著性检验5、回归方程的拟合优度6、残差分析7、回归系数的区间估计,一元线性回归分析模型,1、回归模型建模的实践背景2、一元线性回归模型的数学形式:1)、理论模型:,一
14、元线性回归模型的数学形式,2)、样本回归模型对于n组观测值 有:,一元线性回归模型的数学形式,3)、模型的矩阵表达:,回归分析的参数估计(OLSE),Ordinary Least Square Estimation:对于已知n组观测值有:,回归分析的参数估计(OLSE),回归分析的参数估计(OLSE),由此得回归方程:,关于系数的几种表达方式,关于回归方程估计的几个说明,1、回归方程通过样本的中心点2、残差具有如下性质:,回归方程的极大似然估计,回归方程的极大似然估计,OLSE的性质,1、线性:,OLSE的性质,2、无偏性,OLSE的性质,3、参数的方差:上面的公式表明,参数的准确性除受总体的
15、差异外,还受X值的范围影响,X取值范围越大,参数就越稳定,OLSE的性质,Gauss-Markov条件:如果参数的下列条件成立:,回归方程的检验,在得到回归方程后,必须运用统计检验方法分析该方程是否真正描述了Y与X之间的统计规律之后,才能进行分析预测等各种运用,检验的基本假设前提是:,T检验,T检验主要用于检验回归系数有效性的统计检验方法1、设置假设:,T检验,2、构造检验统计量:,T检验,3、检验过程:在给定显著性水平,双侧检验临界值为,当,拒绝原假设,反之,接受原假设,即回归方程不成立,,T检验,4、P值检验法:P值又称P-Value,基本的检验关系是:P()=P值其中t为检验统计量,服从
16、t(n-2)的分布判别的标准是:,用P值代替t 值的优越性,1、直接对比P值与 的水平,不用查表2、用P值检验可比性较好。3、P值的意义明确,就是犯拒镇真错误的 概率。,F检验,1、回归方程平方和分解;见分解图,Y,X,F检验,由上图有:SST-Sum of squares for TotalSSE-Sum of squares for errorSSR-Sum of squares for Regression,F检验,2、回归方程显著性检验1)、设置假设:2)、构造统计量:,F检验,3)、检验标准:,F检验,相关系数的显著性检验,1、相关系数的含义:,相关系数的显著性检验,2、相关系数的特
17、征:相关系数仅能表现两个变量之间的线性关系,而不能反映非线性关系。就是说,即使r=0,也不能说两个变量无关。相关系数的接近1的程度与观测数据的容量密切相关,当数据较少时,无法通过相关系数的大小判别两个变量的相关程度。,相关系数的显著性检验,3、相关关系的判断-相关系数检验表当 大于检验表中的5%的值但小于1%值时,显示x与 y有显著的线性相关关系。当 大于检验表中1%的值,则显示两个变量之间有十分显著的线性相关关系。当 小于检验表中5%的值,则显示两个变量没有明显的线性关系。,相关系数的显著性检验,4、相关系数的符号:根据公式:,三种检验的关系,可以证明,就一元回归方程而言,回归系数检验、相关
18、系数检验和F检验是完全等价的。基本关系是:,回归方程的拟合优度检验,1、检验公式:2、基本意义:表现回归方程总平方和中能够为回归平方和解释部分的比重,该值越大则拟合优度越好。,但是,当观测值很大时,高度显著的检验结果可能对应较低的决定系数,产生这种结果的原因有:X与Y存在的关系不是线性关系而是非线性的。X与Y的线性相关关系确立,但是误差项方差 太大,导致样本决定系数很小。,回归方程的拟合优度检验,回归系数的区间估计,在实际运用中,经常考虑回归系数的区间估计,由公式:1、区间估计的统计量:,回归系数的区间估计,2、概率度公式:,回归系数的区间估计,3、区间估计:,回归方程预测与控制,1、单值预测
19、:,回归方程预测与控制,2、区间预测:1)、因变量新值的区间估计:,回归方程预测与控制,2)、因变量新值的平均值的区间估计,一元线性回归模型的估计,某地区月人均收入与月食品支出的资料,恩格尔函数计算示例,回归方程误差的估计,总体回归方程的误差与样本误差的关系为:根据回归直线得到:,回归均方误差与标准误差,回归方程误差的估计,最小二乘法估计量的性质,最小二乘法估计量的性质,一元线性回归模型的检验,回归方程必须通过检验才能实际应用检验内容:1、统计学检验:拟合程度评价-可决系数评价 显著性检验-T检验,F检验 2、计量经济学检验-DW,等级相关检验,可决系数的含义,1、回归方程平方和分解;见分解图
20、,Y,X,可决系数的含义,由上图有:SST-Sum of squares for TotalSSE-Sum of squares for errorSSR-Sum of squares for Regression,可决系数的含义,由上面的公式有:,可决系数的含义,可决系数定义为:很显然,可决系数越大,方程的拟合度就越高。,可决系数的应用,可决系数的应用,可决系数的特性:,1、具有非负性2、取值范围为:3、可决系数是样本观测值的函数,T检验,T检验主要用于检验回归系数 有效性的统计检验方法1、设置假设:,T检验,2、构造检验统计量:,T检验,T检验,T检验,T检验,3、检验过程:在给定显著性水
21、平,双侧检验临界值为,当,拒绝原假设,反之,接受原假设,即回归方程不成立,,T检验,T检验,T检验,4、P值检验法:P值又称P-Value,基本的检验关系是:P()=P值其中t为检验统计量,服从t(n-2)的分布判别的标准是:,用P值代替t 值的优越性,1、直接对比P值与 的水平,不用查表2、用P值检验可比性较好。3、P值的意义明确,就是犯拒镇真错误的 概率。,回归方程预测与控制,1、单值预测:,示例,假定某地区居民家庭的人均收入为200元,根据回归方程,有月食品支出预测值:y=9.99+0.1802x y=9.99+0.1802200=46.03元,回归方程预测与控制,2、区间预测:因变量新
22、值的区间估计:,回归方程预测与控制,因变量预测值的估计区间,回归方程预测与控制,由上例有:,回归方程预测与控制,一元线性回归分析,1、一元线性回归模型(理论模型与经验模型)2、回归模型的参数估计(OLS估计与残差计算)3、回归方程的显著性检验(t回归系数的t检验)4、回归方程的拟合优度(可决系数,F检验)5、残差分析(回归诊断)6、回归系数的区间估计(单值预测与区间估计),第三节 相关分析,相关系数的定义相关系数与可决系数单相关系数的检验,相关系数的定义,1、相关系数:是在直线相关的前提下,用以测量两个变量之间相关关系的密切程度的统计分析工具。2、相关系数的含义解释:1)、相关系数测定的原始公
23、式:积差法公式:,积差法公式的几何解释,积差法公式的几何解释,相关系数的测算公式:,样本相关系数的计算,一元线性回归模型的估计,某地区月人均收入与月食品支出的资料,计算示例(P177),低度相关,显著相关,0.8-1高度相关,相关系数的基本性质,相关系数的几个数量关系,1、相关系数与可决系数的关系:在一元线性回归方程中,有:2、相关系数与回归系数的关系:,相关系数的检验,相关系数仅能表现两个变量之间的线性关系,而不能反映非线性关系。就是说,即使r=0,也不能说两个变量无关。相关系数的接近1的程度与观测数据的容量密切相关,当数据较少时,无法通过相关系数的大小判别两个变量的相关程度,Ansbe data,Ansbe data,Ansbe data,Ansbe data,相关系数的检验,1、提出假设:2、检验统计量:3、临界值为:,计算示例,假设根据6对样本观测数据计算出某公司的股票价格与气温的样本相关系数r=0.50,试问是否可以根据5%的显著性水平认为该公司的股票与气温之间存在一定程度的线性相关关系?将相关数据代入:,