《回归分析与聚类分析.ppt》由会员分享,可在线阅读,更多相关《回归分析与聚类分析.ppt(28页珍藏版)》请在三一办公上搜索。
1、1,第8章 回归分析与聚类分析初步,8.1 一元线性回归分析8.2 二元线性回归8.3 主成分分析8.4 聚类分析,内容提要,2,8.1 一元线性回归,(1)确定性关系对应关系、函数关系。其变量称确定性变量。(2)相关关系对应的变量称随机变量。没有一一对应的函数关系,但有统计规律散点图、回归方程。,一元回归分析研究单因素与试验指标间相关关系;多元回归分析研究多因素与试验指标间相关关系;线性回归、非线性回归相关关系为线性或非线性。,8.1.1 概述,科研与生产中,变量之间的关系有两种情况,3,设有一组试验数据xi,yi(i=1,2,n),其中x是自变量,y 是因变量。若x,y 符合线性关系,或已
2、知经验公式为直线形式,即:,8.1 一元线性回归,8.1.2 回归方法,a,b 称为回归系数;是由xi代入回归方程的计算值,称为回归值。,4,与yi 之间的偏差称为残差,用ei 表示,则有:,残差平方值(考虑到残差有正有负)之和为:,显然,只有残差平方和最小时,回归方程与试验值的拟合程度最好。,残差平方和SSe为a,b的函数,即:SSe=f(a,b),为使SSe值到达极小,根据极值原理,只要对上式分别对a,b求偏导数,并令其等于零,求解方程组即可求得a,b之值最小二乘法原理。,5,要使误差最小,则,对方程组求解,即可得到回归系数a,b的计算式:,正规方程组,6,为了方便计算,令:,于是:,7,
3、(1)相关系数检验法,先求出回归方程的相关系数,然后与临界值进行对比:计算值临界值两变量不是独立,相关关系成立;计算值临界值两变量独立,相关关系不成立。,8.1.3 一元线性回归效果的检验,相关系数检验法、F检验即方差分析法,检验回归方程的可靠性或可信性,8,相关系数用下式求出,回归系数b 与相关系数r 的关系为:,b 与r 有相同的符号,决定系数相关系数的平方r2,P101,例8-4,9,相关系数的特点:0|r|1,10,(2)F 检验方差分析 法,(1)计算离差平方和,回归平方和回归值 与算术平均值 的偏差,总离差平方和试验值yi与其算术平均值 的偏差,残差平方和试验值yi与回归值 的偏差
4、,三种平方和之间有下述关系:SSTSSRSSe,SSR还可以用更简单的公式计算:,11,(2)计算自由度,总离差平方和SST的自由度为:fT=n1回归平方和SSR的自由度为:fR=1 残差平方和SSe的自由度为:fe=n2显然,三种自由度之间的关系为:fT=fR+fe,(3)计算均方 离差平方和/自由度,回归平方和的均方,残差平方和的均方,12,一元线性回归方差分析表,1.若F F0.01(fR,fe),称 x与y有非常显著的线性关系,用两个“*”号表示2.若F0.05(fR,fe)F F0.01(fR,fe),称 x与y有显著的线性关系,用一个“*”号表示;3.若F F0.05(fR,fe)
5、,则称 x与y 没有明显著的线性关系,回归方程不可信。,13,8.2 二元线性回归分析,设y 有n组试验数据x1i,x2i,xmi,yi(i=1,2,,n),如果将自变量x1i,x2i,xmi,代入上述回归方程,就可以得到对应的函数计算值,即回归值。残差平方和为:,8.2.1 二元线性回归方程,14,根据最小二乘法原理,要使Q达到最小,应满足以下条件:,由此可以得到如下的正规方程组:,15,方程组的解就是偏回归系数,8.2.2 二元线性回归方程的显著性检验,4.3.2.1 F 检验法,总平方和:回归平方和:残差平方和:,16,二元线性回归方差分析表,1.若F F0.01(fR,fe),称 y与
6、x1,x2,xm有非常显著的线性关系,用两个“*”号表示2.若F0.05(fR,fe)FF0.01(fR,fe),称y与x1,x2,xm有显著的线性关系,用一个“*”号表示;3.若F F0.05(fR,fe),则称y与x1,x2,xm没有明显著的线性关系,回归方程不可信。,17,8.3 主成分分析,多元统计分析处理的是多变量(多指标)问题。由于变量较多,增加了分析问题的复杂性。但在实际问题中,变量之间可能存在一定的相关性,多变量中可能存在信息的重叠。因此,人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息.这实际上是一种“降维”的思
7、想。,18,主成分分析也称主分量分析,是由Hotelling于1933年首先提出的。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。当第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,直到所提取的信息与原指标相差不多时为止。这就是主成分分析的思想。,19,在力求数据信息丢失最少的原则下,对高维的变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就称为主成分。要讨论的问题是:(1)基于相关系数矩阵还是基于协方差矩阵做主成分
8、分析 当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。,20,(2)选择几个主成分 主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。(3)如何解释主成分所包含的经济意义,21,8.3.2 主成分的计算,设两个变量(x1,x2)的样板数据如下表,求得平均值和协和方差矩阵分别为,并有,适当选取(a1,a2)使y1处于方差最大的方向。,22,设总体X的样本数据阵为,则样本协方差阵S及样本相关阵R分别为,23,其中,下面以样本协方差阵S作为的估计或用R作为总体相关阵的估计,然后
9、按上节方法求样本主成分。,24,8.4 聚类分析,8.4.1 概述,聚类分析的基本思想是在样品之间定义距离,在样品之间定义相似系数,距离或相似系数代表样品或者变量之间的相似程度。按相似程度的大小,将样品(或变量)逐一归类,关系密切的类聚集到一个小的分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚集完毕,形成一个表示亲疏关系的谱系图,依次按照某些要求对样品(或变量)进行分类.,25,(距离可以自己定义,只要满足距离的条件),8.4.2 样品间的距离,26,一般情况下,我们常用到下面定义的几种距离,欧氏距离(Euclidean distance),绝对距离(Block距离),明考斯基距离(Minkowski),27,切比雪夫距离(Chebychev),马氏距离,方差加权距离,28,五种系统聚类方法的距离参数值,8.4.3 类聚方法,