《中科院心理所心理统计学7回归分析.ppt》由会员分享,可在线阅读,更多相关《中科院心理所心理统计学7回归分析.ppt(49页珍藏版)》请在三一办公上搜索。
1、回归分析,任课教师:禤宇明中国科学院心理研究所,2,本章基本内容,相关和回归一元回归分析最小二乘估计、回归系数、回归估计的标准误、决定系数回归方程的有效性检验多元回归分析多元决定系数,3,1.相关和回归1.1 散点图 scatter diagram,4,5,1.2 平方和、积矩和、协方差sum of squares sum of products covariance,6,1.3 回归分析 regression analysis,回归分析:确定变量之间数量关系的可能形式,并用一个数学模型来表示这种关系形式它可以从一个变量的变化来预测或估计另一个变量的变化只有一个自变量的线性回归叫一元线性回归或
2、简单线性回归寻找一条最佳拟合直线best-fitting line,使得预测值predicted value和观测值observed value之间的误差最小,7,2.一元回归分析2.1 回归线 the regression line,8,最佳拟合直线 best-fitting line,9,2.2 回归线的求解,正规方程组 normal equations,Q,10,11,2.3 对回归系数的解释,12,2.4 从给定的X来估计对应的Y,无穷大的样本取给定X对应的所有Y的均值作为估计值对应于某个X的所有Y称为Y的条件分布conditional distribution有限样本,13,2.5
3、预测的准确性,如果需要你去猜测某个班的每个学生的某次考试的成绩,而只告诉你该班的平均分,怎样猜才能误差最小?标准差作为误差的度量,14,估计的标准误 P208 倒数第12行standard error of estimate,15,2.6 回归的有效性检验2.6.1 误差平方和,(公式推导参考P207)相关越高,误差越小相关越高,从X预测Y就越准确,误差就越小,16,2.6.2 因变量变异的分解,17,研究吸烟量X和寿命Y之间的关系人的寿命总是有差异SSY吸烟的多少有差异SSX从X来预测Y,预测值为的变异SS可从X的变异来解释吸烟量X变化,预测寿命才变化吸烟量X不变,预测寿命不变Y的部分变异X
4、是无法解释的 SSe吸烟量一样的人也会有不同的寿命,18,极端所有不抽烟的人寿命为72岁,所有抽烟的人抽一样多的烟且寿命都是68岁此时,寿命的变异可完全从抽烟的变异来预测实际寿命的变异有的可以从抽烟的变异来预测,其余部分不能从抽烟的变异来解释,19,2.6.3 决定系数(测定系数)r2 coefficient of determination,衡量回归方程有效性高低的指标回归平方和在总离差平方和中所占的比例因变量的变异中可以从自变量的变异来解释的比例,20,2.6.4 回归有效性检验 对r的显著性的检验(复习),21,对回归的有效性检验,22,对回归的有效性检验对r的显著性检验P160,23,
5、2.7 样本回归线和总体回归线,根据样本数据的回归分析结果为样本回归线=a+bX不同的样本对应于不同的样本回归线所有样本回归线都是总体回归线=a+bX 的一个估计所有样本回归线会在总体回归线附近波动对给定X,对应的总体回归线的也称为主值,而某条样本回归线对应的i只是的一个点估计所有i的平均值将为,24,25,2.8 回归分析的应用,预测已知X0,预测总体回归线对应的0(主值)已知X0,预测新的观测值Y0控制已知Y的范围,控制X的范围,26,2.8.1 从X0预测总体回归线对应的0,27,2.8.2 从X0预测新的观测值Y0,28,离样本平均数越近,估计越准确,29,30,P203 例 7-1,
6、31,P212 例 7-4,32,2.8.3 从X预测Y和从Y预测X,33,2.9 一元线性回归的数学模型,从X预测YY=0+1X+Y=a+bX+eY与X的关系分为两部分0+1X是由于X的变化引起线性变化的部分;是全体一切随机因素造成的部分 N(0,s2),34,2.10 一元线性回归的基本假设,X与Y在总体上具有线性关系变量X没有测量误差(看成精确变量)(Xi,Yi)和(Xj,Yj)彼此独立;与某一个Xi值对应的Y值构成变量Y上一个子总体,这样的子总体服从正态分布,且它们的方差相等i 是Xi对应Y的子总体的平均数的无偏估计,35,小结,36,3 多元线性回归3.1多元线性回归的数学模型,从X
7、1,X2,Xk(凭经验选取)预测YY=0+1X1+2X2+kXk+N(0,s2)根据样本数据建立的回归方程=b0+b1X1+b2X2+bkXkbi称为(偏)回归系数偏回归系数表示其它自变量假设不变时,某一个自变量变化而引起因变量变化的比率,37,3.2 标准回归方程、标准偏回归系数,把所有原始数据转换成标准分数,以标准分数建立的回归方程为标准回归方程Y=1Z1+2Z2+kZk标准回归方程的回归系数称为标准(偏)回归系数,其大小可直接反映对应的变量在预测时做的贡献bi=iSY/SXi,38,3.3 偏回归系数的计算,基本原理最小二乘法:预测值和观测值的误差平方和最小一般借助于计算机ExcelSP
8、SSSASMinitab,39,3.4 多元测(决)定系数r2,其中 r 称为复相关系数 multiple correlation coefficientr 实际上就是预测值和观测值Y之间的相关系数,40,3.5 多元线性回归方程的检验,方差分析,41,3.6 偏回归系数的显著性检验,回归方程显著并不意味着所有的回归系数都显著某个偏回归系数不显著意味着对应的自变量在回归方程中没什么贡献可以去掉该变量,重新建立回归方程检验方法,42,3.7 选择有效自变量的方法,逐步回归 stepwise regression对不显著变量,只剔除对回归贡献最小的那个变量;然后重新建立新的回归方程,如仍有不显著变
9、量,仍仅剔除对回归贡献最小的那个变量,重新建立新的回归方程,直至所有变量都显著前进法 forward regression逐步加入自变量,检验显著就保留后退法 backward regression将所有自变量引入回归方程,逐渐剔除那些对回归方程作用不大的自变量,43,3.8 Excel:工具-数据分析-回归,44,Excel的多元回归结果,45,3.9 应用多元回归的注意事项,多重共线性 Multi-collinearityX1,X2,Xk之间存在密切的线性关系,称它们之间存在着多重共线性。此时对回归系数的估计不稳定因果关系回归分析能表现出变量彼此关联或有联系,但不能证明其因果关系回归系数的
10、大小计量单位相同或数据标准化时才能直接比较样本容量r2 受 n 对于自变量个数 k 的影响。一般观测数n至少等于自变量个数 k 的1015倍。,46,4.回归分析与相关分析的区别,回归分析中,变量Y称为因变量,处于被解释的地位。而在相关分析中,X与Y处于平等地位;相关分析中,X和Y全是随机变量,而在回归分析中,因变量Y是随机变量,自变量X可以是随机变量,也可以是非随机的。通常回归模型中假定X是非随机的精确变量;相关分析的研究是为了刻画两变量间线性相关的密切程度。而回归分析不仅可以揭示X对Y的影响大小,还可以由回归方程进行预测和控制。,47,P229第1题,48,P229第2题变量X1不显著,49,P229第2题剔除变量X1的回归结果,