方差分析及回归分析ppt课件.pptx

上传人:小飞机 文档编号:1729451 上传时间:2022-12-16 格式:PPTX 页数:59 大小:424.10KB
返回 下载 相关 举报
方差分析及回归分析ppt课件.pptx_第1页
第1页 / 共59页
方差分析及回归分析ppt课件.pptx_第2页
第2页 / 共59页
方差分析及回归分析ppt课件.pptx_第3页
第3页 / 共59页
方差分析及回归分析ppt课件.pptx_第4页
第4页 / 共59页
方差分析及回归分析ppt课件.pptx_第5页
第5页 / 共59页
点击查看更多>>
资源描述

《方差分析及回归分析ppt课件.pptx》由会员分享,可在线阅读,更多相关《方差分析及回归分析ppt课件.pptx(59页珍藏版)》请在三一办公上搜索。

1、1单因素试验的方差分析,(一)单因素试验试验指标:在试验中,要考察的指标称为试验指标。因素:影响试验指标的条件称为因素。水平:因素所处于的状态称为水平。单因素试验和多因素试验:试验中只有一个因素在改变称为单因素试验,如果多于一个因素在改变称为多因素试验。方差分析:根据试验的结果进行分析,鉴别各个因素对试验结果的影响的一种分析方法。,化学生产中,因素有:原料成分、原料剂量、催化剂、反应温度、压力、反应时间、机器设备、操作人员水平等。目的:决定各种因素,使生产过程得以稳定。方法:先进行试验。试验的分析:利用方差分析来分析试验的结果。根据影响试验结果的因素的多少分为单因素试验的方差分析和多因素试验的

2、方差分析。,两个例子,第一个例子用三台机器来生产相同的铝合金薄板,测量薄板的厚度如下表:这里指标是薄板的厚度;因素是机器不同,其他的都相同。问题是:机器这一因素对厚度有无显著影响?,第二个例子随机选取的、用于计算器的四种类型的电路的响应时间,如下表所示(单位是毫秒)试验的指标是电路的响应时间;考虑的因素是电路类型;目的:是考察电路类型对响应时间有无显著影响。,第三个例子,一火箭使用四种燃料,三种推进器做射程试验。每种燃料与美中推进器的组合个发射火箭两次,得射程如下:试验指标:射程;因素:推进器(三个水平)、燃料(四个水平);目的:考察推进器核燃料这两个因素对射程是否有显著影响。,问题的讨论-(

3、单因素试验),对于例1在因素的每一个水平下进行独立试验,其结果是一个随机变量;表中的数据看成是来自三个不同总体的样本值;若记各个总体的均值依次为1,2,3;则按题意需检验假设H0:1=2=3 , H1: 1,2,3不全相等。若假设个总体为正态变量,且方差相等,但参数未知。这就变为检验同方差的多个正态总体均值是否相等的问题。而方差分析法就是解决这一问题的一种统计方法。,单因素试验的方差分析,设因素有S个水平,在水平Aj (j=1,2,s)下,进行nj (nj2)次独立试验,结果如下:,假定,各个水平Aj (j=1,2,s)下样本X1j,X2j, 来自具有相同方差2,均值分别为j (j=1,2s)

4、的正态总体, j和2未知且在不同水平Aj下的样本之间相互独立。,Xij - j可以看成是随机误差。记为Xij - j =ij ,则Xij 可以写为Xij = j +ij ij N(0, 2),各ij独立i=1,2,nj , j=1,2,s(1,1)称为单因素方差分析的数学模型。,(1,1),方差分析的任务,检验s个总体 的均值是否相等,即检验假设作出未知参数 的估计若记 的加权平均为再引入 表示总体平均值与总平均的差异,称为水平Aj的效应。这时模型(1.1)可以改写为:,(1,2),(1,3),(1,4),而假设(1.2)等价于假设我们来导出上述假设检验的检验统计量。,(1.1),(1.2),

5、(二)平方和的分解,引入总偏差平方和(或总变差)与总平均:即 水平Aj下的样本均值为这时,可以将ST写成:,(1,5),(1,6),(1,7),上式的第三项为,若记,SE称为误差平方和, SA表示Aj水平下的样本均值与数据总平均的差异,叫做效应平方和,他是由水平Aj的效应的差异以及随机误差引起的。,(1,8),则得ST=SE+SA ,,(1,9),(1,10),(三) SE,SA的统计特性1、SE的统计特性,由于 是总体 的nj-1倍,所以由于独立,(1,11)中各式独立,根据 分布的可加性,得,(1,11),(1,12),可以计算 这里2、SA的统计特性,它是s个变量的平方和,且仅有一个线性

6、约束条件:因此的知SA的自由度是s-1。,(1,13),(由(1,3),(1,6)及Xij的独立性得知 经计算,(1,14),(1,15),可以证明SE,SA的是相互独立的,且H0当为真时(四)假设检验问题的拒绝域由(1,15)式,当H0为真时所以SA /(s-1)是2的无偏估计,而当当H1为真时,这时而由于,(1,16),(1,17),(1,18),(1,19),所以,SA /(n-s)是2的无偏估计,由于所以检验问题(1,2)的拒绝域的形式是:其中k由预先给定的显著性水平确定,由此得此检验问题的拒绝域是:因此,可以得到单因素方差分析表如下页,(1,20),单因素试验的方差分析表,例4 在例

7、1中就是检验假设这里s=3,n1=n2=n3=5,n=15,按下式计算得到下页的表,(1,21),判断:因为F (2,12)=3.8932.92,故在水平0.05下拒绝H0,即认为各台机器生产的薄板厚度有显著差异。,例4的方差分析表,(五)未知参数的估计,(1)参数2 , ,j , j的估计由上面的讨论,不管H0是否为真, 是2的无偏估计由于故 分别是,j的无偏估计。若拒绝H0 ,就意味着,效应1,2,s不全为零。由于j=j-, j=1,2,s,可知 是j的无偏估计。(2)两总体N(j, 2)N(k, 2)均值差j - k = j - k的区间估计,具体做法是由于于是因此均值差j - k =

8、j - k的置信水平为1-的置信区间是,(1,22),例5 求例4中的未知参数2 ,j , j 的点估计及均值差的置信水平为0.95的置信区间。解:经计算由t0.025 (n-s)=t0.025 (12)=2.1788,得故1 2 , 1 3 , 2 3的置信水平为0.95的置信区间分别为,例6 设在第二个例子中,四类电路的响应时间的总体均为正态分布,切割总体的方差相同,但参数未知,并且个样本相互独立。取水平=0.05,检验各类电路的响应时间是否有显著差异。,解 以1 , 2 , 3 , 4 , 记类型,四种电路的响应时间总体平均值。我们需要检验: H0 :1 = 2 = 3 = 4 , H1

9、 :1 , 2 , 3,4不全相等 由于n=18,s=4,n1 = n2 = n3 =5,n4 =3,,因为F0.05 (3,14)=3.343.76,故在水平0.05下拒绝H0,认为各类型电路的响应时间有显著差异。#,一元线性回归,本节的内容提纲(一)一元线性回归的概念和数学模型(二)a、b的估计(三) 2的估计(四)线性假设的显著性检验(五)系数b的置信区间(六)回归函数(x)=a+bx函数值的点估计和置信区间(七)Y的观测值的点预测和预测区间,第三节、一元线性回归,两个变量之间的关系包括:确定性关系:能用函数关系表达;非确定性关系:就是相关关系。回归分析:研究相关关系的一种数学工具。一、

10、一元线性回归回归:设y是随机变量,若对于x的每一确定值,y有它的分布。若y的数学期望存在,且是x的函数,记为(x),称(x)为y关于x的回归。预测问题:在给定的置信度下,估计出当x取某一定值时,随机变量y的取值情况;控制问题:在给定的置信度下,控制自变量x的取值范围,使y在给定的范围内取值;,回归分析的任务,主要是根据试验,估计回归函数,讨论点估计、区间估计、假设检验等问题。设x取值为x1,x2,xn设Y1,Y2,Yn为在x1,x2,xn的观测结果,则称(x1, Y1),(x2, ,Y2),(xn ,Yn )是一个样本。相应的样本值是: (x1, y1),(x2, y2),(xn ,yn )。

11、回归函数(x)的估计。在直角坐标系中描出散点图,粗略得出(x),例1 为研究某一化学反应过程中温度(x,)与产品得率y的影响。得数据如下表:其散点图如右从图中可以看出它是一条直线,因此(x) 具有形式(x)=a+bx,设Y关于x的回归函数为(x)。利用样本来估计(x)的问题称为求Y关于x的回归问题。若(x)是线性函数(x)=a+bx,此时的估计问题称为求一元线性回归问题。一元线性回归模型:设YN(a+bx, 2 )其中a,b, 2是未知参数,记 = Y-(a+bx),则Y= a+bx + , N(0, 2 ) (1)称上式为一元线性回归模型。称a+bx为x的线性函数,而 N(0, 2 )是随机

12、误差。,二、a、b的估计,取x的n个完全不相同的值x1,x2,xn,作独立试验,得样本 (x1, Y1),(x2, ,Y2),(xn ,Yn ),于是Y= a+bxi + i , i N(0, 2 );各i独立 (2)Yi N(a+bxi, 2 ), Y1,Y2,Yn的联合概率密度为利用最大似然估计法来估计未知参数a、b。令,则变为求Q(a,b)的最小值。令得方程组:称这个方程组为正规方程组。,正规方程组的系数行列式为故正规方程组有唯一一组解,这时我们把 作为回归函数(x)=ax+b 的估计。称为Y关于x的经验回归函数。称方程 为经验回归方程,简称回归方程。也可以把经验回归方程写为若记,这时,

13、a,b的估计值是在例1中,测得温度对产品得率的关系是为了求回归方程,我们需要计算,和,于是得回归直线方程为,根据上表可以计算,三、 2的估计,根据 Y= a+bx + , N(0, 2 ) (1)即 = Y- ( a + bx); 得到EY ( a+bx)2 = E(2)=D(2)+E()2= 2, 这说明:2愈小,用回归函数(x)=ax+b作为Y的近似所导致的均方误差就愈小;用(x)=ax+b研究Y就愈有效;因为2是未知的,这就要利用样本来估计2 。,Qe是经验回归函数(x)=ax+b在xi处的函数值 与处的观察值的偏差的平方和。我们来计算Qe,根据: 得Qe的分解式计算出a,b的估计量是:

14、,若记残差平方和服从的分布如下: 的数学期望是n-2,由此知这就得到了2的无偏估计量如下页所示。,计算下表的和时,要计算三个量:和,例3、在上表中求2的无偏估计。根据上页的表,我们可以得到,(四)线性假设的显著性检验,总结上述的讨论,我们有以下几条:Y关于x的回归(x)具有形式:a+bx;(x)是否为x的线性函数,要具体问题具体分析;即用专业知识判断,和运用假设检验的方法判断。若线性假设Y= a+bx + , N(0, 2 )成立,则b不为零。因此需要检验假设H0 :b=0,H1 : b0。,可以证明且可以计算及在H0为真时,b=0,这时且有 ,即得H0的拒绝域是,几点说明:在H0:b=0被拒

15、绝时,认为回归效果是显著的;反之则认为回归效果是不显著的;回归效果不显著的原因可能是:影响Y取值的,除x和随机误差外,可能还有其他因素;E(Y)与x的关系可能不是线性的;Y与x可能不存在关系;,例4(续例2)检验回归效果是否显著。=0.05由上面的讨论,知故拒绝H0:b=0 ,认为回归效果是显著的。,(五)系数b的置信区间在回归效果显著时,还要对系数b做区间估计。根据上述讨论,在置信度为1-时,的置信区间是根据我们的数据,b的置信水平为0.95的置信区间是,(六)回归函数(x)=a+bx函数值的点估计和置信区间用经验回归函数 在x0的函数值作为(x0)=a+bx0的点估计。即相应的估计量 是无

16、偏的。下面求(x0)=a+bx0的区间估计。由于,即,由此可以得到(x0)=a+bx0的置信水平为1-的置信区间为该置信区间的长度是x0函数,他随 的增加而增加,当 时最短。,(七)Y的观测值的点预测和预测区间利用经验回归函数,可以对因变量Y的观测值Y0进行点预测和区间预测。Y0是在x=x0处的观测结果,他满足Y0= a+bx0 + 0, 0 N(0, 2 )我们利用在x0处的经验回归函数值作为Y0= a+bx0 + 0的点预测。我们用下面的方法进行Y0的区间预测。,由于Y0是要做的独立试验的结果,所以他与已经得到的结果Y1,Y2,Yn,相互独立。并由前面的讨论, 是Y1,Y2,Yn的线性组合

17、,所以 是Y1,Y2,Yn的线性组合。由此可以得到即在根据前面的讨论,得到,即对于给定的置信水平1-,有,区间即区间称该区间为Y0的置信水平为1-的预测区间。该区间的长度是x0的函数,他随的 增加而增加。,例5 续例2,(1)求回归函数(x)在x=125处的值(125)的置信水平为0.95的置信区间,求在x=125处Y的新观测值的置信水平为0.95的预测区间;(2)求在x=x0处Y的新观察值Y0的置信水平为0.95的预测区间。解 (1)由前面知道,得回归函数(x)在x=125处的置信水平为0.95的置信区间为得回归函数(x)在x=125处的置信水平为0.95的预测区间为在x=x0处的新观察值Y0的置信水平为0.95的预测区间为,取x0不同的值,得Y的观察值Y0的预测区间为分别将这些区间的上端点和下端点连接起来,得到两条曲线,L1和L2,而回归直线位于这两条曲线之间。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号