《数理统计 回归分析课件.ppt》由会员分享,可在线阅读,更多相关《数理统计 回归分析课件.ppt(36页珍藏版)》请在三一办公上搜索。
1、1,“回归”来源,统计史上归功于英国生物学家F.Galton(18221911)如人的身高具有一定的遗传性,当父代指标(X)增加(减少)时,子代指标(Y)的平均值会增加(减少),但未看到指标两极分化存在一种力量把指标值“拉向中心”,子代指标有“向中心回归”的现象Galton引进“回归”这个名词来描述X与Y的关系.统计中也沿用回归来描述变量之间的关系,2,第七章 回归分析(analysis of regression),7.1 一元线性回归,有一类变量间有关系,但不能用函数形式来表示。例如人的体重 y 与身高 x 有关,又如居民的储蓄存款额 y 与的收入 x 有关,但同样的收入的人储蓄存款额也不
2、会相同。这样的变量间的关系在统计上称为相关关系。X自变量(一般变量,非随机变量)Y随机变量,一、模型,收集数据,3,例71 我们知道营业税收总额与社会零售总额有关。为了能从社会商品零售总额去预测税收总额,需要了解两者的关系,现收集了如下几组数据(表7.1.1),表7.1.1社会商品零售总额与税收总额 单位:亿元,4,画散点图,5,观测散点图,如果n 个点在某直线附近波动,但不完全在一直线上,认为 y由两部分构成,各 之间独立,可得一元线性回归的数学模型:,6,回归函数: 反映 y 与 x 的相关关系,的估计为 ,回归方程为,考虑如何根据 去估计 ;对回归方程的可信度作检验;回归方程的作用:预测
3、,控制。,7,二、参数的最小二乘法估计(least square estimate)(LSE),(一) LSE的求法,1.准则:,其中,,8,2.求法:,,又 是 的可微函数,有极值,正规方程组:,9,从而 代入得,得到的LSE为,10,回归方程有两种形式:,回归直线过 两点。,11,(二)估计量的分布及有关性质,3 ,当 时, 与 独立,定理7.1.1 在一元线性回归模型中, 与 是最小二乘估计量,12,4 仍服从正态分布,,13,定理7.1.2 在一元线性回归模型中(1)(2) 与 和 相互独立(3) 是 无偏估计,残差平方和,14,15,16,17,18,7.2 回归方程的显著性检验,7
4、21 F检验,主要检测什么叫在直线“附近”,用眼睛看会因人而异,为此需要有个检验准则。为作检验,首先要建立假设。 我们要反映 y 随 x 变化的统计规律, 如果 , 不管 x 如何变化,Ey不会随之改变,从而求出的回归方程是无意义的,所以检验回归方程是否有意义的问题转化为检验下列假设是否为真:,此方法类似于方差分析的思想,从观察值的偏差平方和分解入手。,有下列三种常用的方法,使用时可选择其中之一。,19,总的偏差平方和,造成 差异的原因有两个:,(1)平方和分解,一是 不真, Ey 会随 x 改变,用回归平方和来表示,20,其自由度为,从而有,利用正规方程组可得 还有,二、是其它一切随机因素引
5、起的差异,它可用残差平方和(剩余平方和)表示,21,在 为真时, 与 都是 的无偏估计,而在 时,采用检验统计量 ,取拒绝域为对给定的显著性水平 ,当 为真时, 应满足,(2) 检验统计量与拒绝域,22,(3) 临界值的确定,在一元线性模型中,当 时,有,拒绝域为,23,表7.2.1 方差分析表,24,722 t 检验,我们知在 时,有 但其中 未知,用 去代替,由独立性知在 时,,25,对给定的显著性水平 ,拒绝域为实质上 检验与 检验是等价的,这里。,26,723 相关系数检验(correlation coefficient ),二维样本 的相关系数定义为,这是一个统计量,可用 来检验假设
6、有,27,检验的拒绝域为,从上面可以看出,检验 的三种方法,彼此是等价的,使用时看哪一种方法计算量最少,就用哪一个。,从直观上看,当 为真时, 应较小,从而 应较小,当 较大时,应拒绝 ,因而可得下面的拒绝域:在给定的显著性水平下 ,应满足,28,7.3 预测与控制(predict and control),一、含义,所谓预测是指当 时对相应的 y 的取值所作的推断。由于 是一个随机变量,要预测随机变量的取值是不可能的,只能预测其期望值 。这种推断有两类:一是给出 的估计值,也称预测值;另一类是给出 的一个预测区间。,29,二、预测值与预测区间,1在 处的回归值是 ,就是预测值。,2 的概率为
7、 的预测区间为:,(3)构造一个变量由,30,查表可得 从而,显然预测区间的长度 与样本量 有关。当 较大, 较大( 各 较为分散), 较小, 也较小,31,7.4 多元线性回归(multivariate linear regression),在实际问题中,和某一变量 y 有关系的变量不只一个,而是多个。比如研究 y 与 之间的定量关系的问题称为多元回归问题。多元回归问题中我们讨论最简单而又一般的多元线性回归问题,因为许多多元非线性回归问题可化为多元线性回归问题。,32,一、数学模型(model),假设 y 与 之间的内在联系是线性的,它的第 次试验数据是 则这一组数据有如下的结构:,33,:随机变量的观测向量, :未知参数向量, :结构矩阵, :不可观测的随机误差向量。用矩阵表示为:其中 是 n 维随机向量,它的分量是相互独立的。,34,二、的LSE,1. LSE的求法,的LSE为,其中,通过 ,解出令,35,得到正规方程组为: 其解 为所求。正规方程组的系数矩阵为:当 存在时,有 ,即为所求参数 的最小二乘估计。,36,2. LSE的性质(character of LSE),(1) 是 的线性无偏估计;(2) 为残差向量,有(3),