应用统计回归分析.ppt_三一办公31ppt.com

资源描述

《应用统计回归分析.ppt》由会员分享，可在线阅读，更多相关《应用统计回归分析.ppt（62页珍藏版）》请在三一办公上搜索。

1、,第十章回归分析,回归分析的基本概念一元线性回归多元线性回归,1、函数关系y=f(x)；2、相关关系Y=f(x,)，其中为随机变量。常把上述关系表为:Y=f(x)+,确定性,非确定性,相关关系式中最简单、最常用的一种是线性回归,即其中f(x)=L(x)=ax+b 的情形.,10.1 回归分析基本概念,一.相关关系,二、一元线性回归的数学模型,1、一元线性理论回归模型,（10.1.1）,其中,为确定性部分，0、1为未知参数,2、一元线性回归模型,对(x,y)作n次独立观察，得n组数据(xi,yi)，代入（10.1）得一元线性回归模型,（10.1.2）,由(xi,yi)的值可作出0、1的估计,从

2、而可得,上述方程称为一元线性经验回归方程（简称回归方程）,参数的最小二乘估计模型线性性的检验预测与控制,102 一元线性回归,一、参数的最小二乘估计,考虑一元线性理论回归模型,(10.2.1),代入（10.2.1）可得一元线性回归模型:,若我们对（x,y）做n次独立的观察,可获得n组相互独立的观测值,(10.2.3),1.0,1的最小二乘估计,先讨论问题:如何由(10.2.2)去估计(10.2.3)中的参数0,1 与 2。,若已得到0,1的估计,则线性方程,称为一元线性经验回归方程（简称回归方程）。于是对(10.2.2)的每一组观测值，由(10.2.4)均可求得一个相应的值,常称为回归值或预测

3、值、拟合值等。,我们总希望由估计,所定出的,回归方程能使一切,之间的偏差达到,最小，根据最小二乘法的原理，即要求,必须满足以下方程组（由微积分）,则,令,用代替,，经整理即得,(10.2.6)称为正规方程组，在xi,i=1,n 不全相等时它有唯一解,(10.2.7),容易验证,上式中的确能使Q达到最小,因此他们是0,1的最小二乘估计.,可见,回归方程的图形是通过点(),斜率为的直线.称此直线为回归直线.,(10.2.8),2.最小二乘估计的性质及2的估计,令,(10.2.9),则(10.2.7)和(10.2.8)可表为:,和,此时的残差平方和,最小,记为Se,称为剩余,平方和.即,(10.

4、2.12),进一步分析,可得,(10.2.13),由于,故,很明显,都是统计量,在,的假设下,它们具如下性质:(设 x0为自变量 x 的值.),例10.2.1 在硝酸钠(NaNO3)的溶解度试验中,测得在不同温度x(0C)下,溶解于100份水中的硝酸钠份数y的数据如下表所示.,求0,1的最小二乘估计及2的无偏估计,并写出回归方程.,解编制计算表如下:,故,可算得,2的无偏估计为,所求的回归方程为,二、模型线性性的检验,如果y与x之间不存在良好的线性关系，这样得到的回归方程是毫无意义的。因此，我们必须检验假设H0：1=0；H1：10(10.2.15),离差分解,(10.2.17),其中ST称

5、为总离差平方和,称为剩余平方和.由性质(4)知,它的分布仅依赖于n和2,与x的分布无关，因此它反映了除去y与x之间的线性相关关系之外其他因素引起的数据yi间的波动,(10.2.18),称为回归平方和.它主要反映由变量x的变化引起的yi间的波动.,由性质(4)知,且与SR独立；在H0真时,由性质,(2)及(10.2.18)知,故,H0为真时统计量,(10.2.19),从而,给定水平,假设H0(10.2.15)有拒绝域,易知,在ST一定时,若回归平方和SR越大,则剩余回归平方和Se越小,此时F值就越大,从而反映出y与x之间的线性相关程度就越高,模型(10.2.1)就越好;反之,则相反.,以上方法称

6、为模型线性性检验(或回归方程显著性检验)的F检验法.这种检验也需要做方差分析.,模型线性性检验方差分析表,回归模型线性性不显著的原因可能有如下几种:(1)影响y的除x外,还可能有其他不可忽略的因素;(2)y与x的关系不是线性的,而是存在其它的关系;(3)y与x无关.为此需要进一步查明原因,视具体情况处理.,模型线性性检验的 t 检验法事实上,当H0真时,于是,给定水平,假设H0(10.2.15)有拒绝域:,例(续例10.2.1)试判断温度x和硝酸钠溶解份数y之间的线性关系是否显著?选用F检验法.由例的计算结果(见P364),并利用(10.2.13)式和(10.2.18)式得,建立方差分析表如

7、下.,表10-4 方差分析表,给定=0.01,查表得 F0.01(1,7)=12.23235.75=F,故拒绝H0.这表明温度x和硝酸钠溶解份数y之间的线性关系非常显著.,也可选用 t 检验法.此时因为t(n 2)=t0.01(7)=3.00,而统计量 t 的值,故拒绝H0.,三、预测与控制,回归方程的一个重要应用就是预测。对于给定的点 x=x0,我们常希望知道x0所对应的y0=0+1x0+0的点预测和预测区间.此处 y0与各 yi(i=1,2,n)相互独立.,1.一元线性回归预测y0的点预测可由回归方程(10.2.4)直接得到,求 y0 的预测区间的方法与求参数的置信区间的方法类似(因y0是

8、随机变量而非常数,故不称置信区间而称预测区间).显然,(10.2.20),由y0与的独立性及性质(3),可知,标准化后得,又由性质(4)及(10.2.14)式知:,独立,故U与,也独立.于是,故y0的置信度为1的预测区间为,(10.2.21),若记,则y0的预测区间可记为,对于给定的样本观测值x,可作两条曲线,这两条曲线可形成一含回归直线,的带域,两头呈,喇叭形,在 x=处最窄.如图10-2所示(见P370),当n充分大时,因,而近似地有,可用u/2代替t/2(n 2),从而y0的预测区间可,近似表为,(10.2.22),2.一元线性回归控制控制是预测的反问题,即问自变量 x 应控制在什么

9、范围内,才能以一定的置信度保证因变量 y 落在某一给定的区间之内.换句话说,对于给定的置信度1及区间y1,y2,要寻找x1和x2,使当x1 x x2时x 所对应的 y 落在y1,y2 内的概率 1.仅限于讨论 n 较大的情形.一种简便的方法是:利用(10.2.22)式,从不等式组,中解出x来即可得到控制x的上、下限.但要注意须有,(10.2.23),p元线性回归模型参数估计最小二乘估计假设检验与回归系数的区间估计预测和变量控制,10.3 p(多)元线性回归,一、p元线性回归模型,一般地有,(10.3.1),其中x1,xp是可精确测量或可控制的一般变量，y是可观测的r.v.，1,p是未知参数。,

10、若我们对(10.3.1)获得n个相互独立的观测值,则由(10.3.1)知：yi 具有数据结构式,这就是p元（多元）线性回归模型。,对p元线性回归模型我们将研究下面几个问题,由样本观测值(10.3.2)去估计未知参数1,p,2，从而建立y与x1,xp间的数量关系式（所谓的回归方程）；对由此得到的数量关系式的可信度进行统计检验；检验各变量x1,xp 分别对指标y是否有显著影响；回归系数的区间估计、预测和变量控制。,二、参数估计,先讨论第一个问题，即如何由(10.3.2)去估计(10.3.1)中的参数0,p 与 2。,若已得到0,p的估计,则线性方程,称为p元线性回归方程。于是对(10.3.2)的每

11、一组观测值，由(10.3.4)均可求得一个相应的值,常称为回归值或预测值、拟合值等。,我们总希望由估计,所定出的,回归方程能使一切,之间的偏差达到,最小，根据最小二乘法的原理，即要求,必须满足以下方程组（由微积分）,则,令,用代替,，经整理即得,(10.3.7)称为正规方程组，其解称为0,1,p的最小二乘估计，记为,则(10.3.3)可表为 Y=X+,N(0,2In)(10.3.8)(10.3.7)可表为,正规方程组可用向量矩阵形式简洁表出。令,其中X为正规方程组的结构矩阵，A=XX为系数矩阵，是一个p+1阶方阵，B=XY为常数项矩阵。,在回归分析中通常A1存在，故,从而由最小二乘估计,可建立

12、回归方程(10.3.4)，,并利用它对指标y进行预报和控制。例如给出任意一组变量x1,xp的值（x01,x0p），由(10.3.4)可得y0的预测值：,定义,为了得到预测的精度及控制生产的需要，通常还要求得2的估计。,实测值yi与回归值,的差,叫残差，,称为剩余平方和（或残差平方和）。,叫残差向量，,一般地，有,推论,定理10.1,E(Se)=(np1)2,从而,是2的无偏估计。,例求p元中心化回归模型,中参数0,1,p的最小二乘估计与2,的无偏估计。其中,定理10.2,现在进一步研究最小二乘估计(least square estimation),的性质。,是的无偏估计，其协方差阵为,定理

13、10.3,定理10.4,当YN(X,2In)时，,与Se独立，且,其中q为矩阵X的秩。,的与残差向量的几何意义,求的,，就是求一个,使得Y与,的距离最短，这等价于在U(X)中找一向量,使得,这只能在,才能办到,式(10.3.16)指出了这一点，,可见,是Y在U(X)上的投影。,三、假设检验,变量y与x1,xp之间是否确有线性关系即检验假设 H0：1=2=p=0(10.3.17)若y与x1,xp之间确有线性关系，那么因子xj对y作用是否显著呢？这需要检验假设 H0：j=0,(j=1,p)(10.3.18),1.假设(10.3.17)的检验法,总偏差平方和,其中,即剩余平方和，它反映,除去y与x

14、1,xp之间的线性关系以外一切因素引起的数据yi间的波动。而,称为回归平方和。反映由变量x1,xp的变化引起的数据yi间的波动。在p元线性回归模型(10.3.3)中，当假设(10.3.17)真时，,故,由定理10.4知,由于SR是正态变量的平方和，其自由度为(n1)(np1)=p,故由定理（柯赫伦）知，在)真时，Se与SR相互独立，且,从而有,2.假设)的检验问题,最后，给定显著性水平后，即可得到假设)的拒绝域,由定理10.4知,其中cjj为,(XX)1中第j+1个对角元素，且,独立，故,这就是用来检验第j 个因子j 是否显著为零的统计量。于是，给定显著性水平，假设)的拒绝域为,四.回归系数的

15、区间估计、预测和变量控制,1.的线性函数的区间估计,若检验得知回归因子xj对y的影响显著，此时常要考虑j的区间估计问题。一般地说，在回归分析中常要求考虑的线性函数的区间估计问题。,设=(1,2,p)为实常向量，记,我们要求的是的置信度为1的置信区间。,易证的最小方差线性无偏估计为,它称为的高斯马尔可夫估计。,且与,相互独立。可选择,为主元。由P|T|t/2(np)=1，解不等式，得的置信度为1的置信区间如下：,特别，当,置信度为1的置信区间为,2.y的预测区间,设给定x=(x1,xp)的值x0=(x01,x0p)，要求x0所对应y0的置信度为1的预测区间。,设给定x0，则,y0的回归值

16、,由于y0与y1,yn独立，故,与y1,yn也独立，,且与,从而,独立，故,由P|T|t/2(np)=1，解不等式，即得y0的预测区间如下：,3.x的控制,当n充分大时，y0的预测区间可近似表为,由不等式组,即可解得控制 x 的上、下限。,五.可化为线性回归的例子,1.模型 y=a+bsint+，N(0,2)(10.3.28)其中a、b、2为与t无关的未知参数，只要令x=sint，即可得一元线性回归模型。2.模型 y=a+bt+ct2+，N(0,2)(10.3.29)其中a、b、c、2为与t无关的未知参数，只要令x1=t，x2=t2，即可得二元线性回归模型。可推广到y=gn(t)+，N(0,2

17、)的情形，其中 gn(t)=an+an1t+a0t n，为n次多项式。,3.模型(y)=a+bx+，N(0,2)(10.3.30)其中为已知函数，且具单值反函数，a、b、2为与x无关的未知参数，只要令z=(y)即可。,The End,近代统计学的地位,统计学是当今最重要的科学技术之一很多人不了解统计学!(1)美国“科学84年”杂志选出“20世纪对人类生活影响最大的20项科技成果”；统计学入选其中(其它如：相对论、激光、电视、塑料、DNA等)。(2)法国科学院近来向政府提交了一个报告；列举了10项应该重点发展的科技领域。其中9项为信息、能源等高科技项目,唯有一项统计学属于基础性学科,报

18、告认为“法国统计学发展的滞后对法国经济、社会的发展产生了很不利的影响”.,(3)日本战后经济发展非常快,有人认为:以“统计质量管理”(田口方法、TQC即全面质量管理等)为中心的统计学方法的应用,贡献了5%的份额。(4)美国2003年“技术评论”杂志根据最新调查,介绍了全球九大新兴科技展望。其中第4项为贝叶斯统计技术(其它如:个人基因学；合成生物学；纳米导线；微射流光纤；等).调查报告指出:贝叶斯统计技术将是下一波软件开发的基本工具；可能使外语翻译、微型芯片制造、药物发现、基因技术等领域发生巨大进步；英特尔、微软、Google等大公司都已挤入这一新领域的研发。微软已进入市场,其2003年版

19、Outlook就包括了贝叶斯办公室助手软件。,(5)美国统计学家把新的贝叶斯统计方法应用于MX导弹试验。使导弹第一阶段的试验由36次减少到25次；可靠性由72%提高到93%；可节省直接费用2.5亿美元(美国David报告:“美国数学的现在与未来”)。(6)在美国，统计是最为热门的职业之一。统计学家的工资水平也是非常高的。美国白宫人事局2003年的一份报告中指出,统计学家的工资名列第6；高于经济学家、计算机科学家、化学家、电气工程师、建筑师等行业。(7)在英美等国，二三流大学都有统计系、生物统计系。美国统计学博士生获得资助率(32%)、肯定就业率(78%)、到重点大学就业率(43%

20、)都是最高的；美国基础数学毕业生找工作的平均等待时间为14个月,而统计学毕业生为2个月.,(8)统计学对于现代基因学说的产生与发展起了非常重要的作用。孟德尔1865年提出基因学说；在1953 年 Watson&Crick 在分子水平上发现DNA的双螺旋分子结构之前,主要靠统计学的支持。(9)美国Glimm报告“数学科学、技术、与经济竞争力”指出:统计学已得到广泛应用，在这个意义上它处于数学各分支领先地位；是用于分析数据的第一数学分支,也是新科技中涉及数学的第一分支，是把新科技进行量化的先驱手段。(10)1991-2001十年期间,全世界数学论文引用率最高的前25名数学家中有18

21、名是统计学家,占2/3强。,数学家成企业新宠数学系毕业生年薪可达6位数,在“Google”或“雅虎”这样的公司，大学数学系毕业生的起始年薪可达6位数。就像不久以前，人们争抢哈佛大学企管硕士一样，如今，企业已开始纷纷争抢数学家。,本报华盛顿1月18日电(记者张孟军)人类社会正在向“新数字时代”迈进。数学家和计算机专家强强结合，正酝酿催生出一个全新的业务范畴，从而提高了数学的效能。,过去几十年来，高级数学和计算机模拟不断改变着科学和社会的面貌。数学家正在帮助企业收集和挖掘消费者和企业数据库中的数据，并从这些数据中找出有用的“金矿”。据新出版的美国商业周刊报道，数学家正在帮助企业拟定广告宣传战略

22、，他们也在改变对新闻报道进行研究的切入角度和研究方法。数学家使市场营销人员同客户形成了一对一的关系，越来越多的经济活动进入“数学王国”。,例如，在纽约华尔街工作的数学企业家尼尔戈德曼，就创建了“Inform技术公司”。该公司每天搜索成千上万篇新闻报道和网上博客的文章进行“阅读”，并能将这些文章分门别类地分成不同部分。Inform公司不是逐字逐句进行阅读做出文摘，而是按语言和内容，采用数学计算及统计法来分析每篇文章。然后按客户需要，将对客户有用的文章或段落发给客户。,美国国家安全局(NSA)数学研究组的首席数学家沙茨说：“数学家从未获得过如此高的地位。”冷战时期，美国国家安全局雇用了大量数学家。

23、该局的数学高手曾同前苏联的数学高手展开竞赛：每边的人都在千方百计保护自己的密码不被对方破译，而试图破译对方的密码。如今，美国国家安全局的数学团队已经把工作重点转移到新的领域反恐。他们不断分析恐怖分子在网上和电话中的各种信息，例如分析恐怖分子的讲话、主题和通话的频率，以分析判断未来可能出现的恐怖袭击。美国国家安全局正在和“Google”或雅虎等公司进行人才争夺战，以招聘到最好的数学家。该局招聘办公室主任米勒温特说：“我们必须寻找新的和创新的方法，以找到最有用的人才.”,诸如IBM及Inform等许多公司，也都在让数学家参与其业务工作，IBM公司正在为自己5万名咨询人员建立数学学历档案，以使公司能

24、够针对每项指派的任务，选定最合适的团队人员。该公司还采用其他一些技术手段，来一小时一小时地跟踪咨询人员的工作进展，并对其工作进行评定。目前，IBM公司的咨询人员正在实施基于数学分析的行动计划，以使一些企业升级换代和改进美国邮局的运作。设在硅谷的美国“有效前沿”公司，正在为网上广告宣传提供数学最佳化分析。它为每一项广告计算响应率和投资回报率。,在像“Google”或“雅虎”这样的公司，大学数学系毕业生的起始年薪达到6位数，以及赠送最佳股权。麻省理工学院企业家、应用数学教授莱顿说：“雅虎和Google公司对我的全部毕业生都出高价雇用。顶尖数学家已成为新的全球精英人才。”就像不久以前，人们争抢哈佛大

25、学企管硕士(MBA)一样，现在企业纷纷争抢数学家。,15个月以前，Inform公司总裁尼尔戈德曼以2.25亿美元将他以前建立的基于数学的公司称为CapitaIIQ的金融分析公司，卖给了“标准普尔”的一个分公司。,去年5月，由两兄弟组建、为遗传学开发计算方法的“Perabit网络”公司，以3.37亿美元卖给了Juniper网络公司。企业研发也在着手将各种数学模型用于研究客户和雇员的状况。一些模型能预测用户将购买什么样的音乐唱片，另外一些模型则能预测为了能够重新就业，工人应做什么样的准备。这类研究人类各类活动的数学模型，有希望成为21世纪最重要的业务之一。,美国企业和研究机构长期依赖外国数学家。据估计，目前美国有2万名数学研究生是外国出生的。所以，一些美国专家呼吁，美国应加快培养在美国本土出生的数学家。,上大学挑选数学专业,对于21世纪的有为青年来说,绝对是一个聪明的选择!,THE END,

展开阅读全文