《第8章方差分析及回归分析课件.ppt》由会员分享,可在线阅读,更多相关《第8章方差分析及回归分析课件.ppt(53页珍藏版)》请在三一办公上搜索。
1、概率论与数理统计教程,方差分析与回归分析,第八章,数计学院 数学教研室,本章目录,8.1 单因素方差分析8.2 双因素方差分析8.3 一元线性回归分析,工业生产中产品质量的影响因素:原材料、设备、技术及员工素质等; 工作中影响个人收入的影响因素:除学历、专业、工作时间、性别等方面外,还有个人能力、经历及机遇等偶然因素.,在这众多因素中,每一个因素的改变都可能影响最终的结果,各因素的影响有大有小。故在实际问题中,就有必要找出对事件最终结果有显著影响的那些因素.,如何分析这些诸多因素中哪些因素对结果会产生显著影响?,这是方差分析的主要任务!,8.1 单因素方差分析,基本概念:,试验指标:在试验中要
2、考察的指标,如产品的质量等。,因素:影响试验指标的条件。包括可控因素和不可控因素。,单因素试验:在一项试验中只有一个因素在改变的试验。,多因素试验:在一项试验中多于一个因素在改变的试验。,水平:因素所处的状态。,随机误差:同一水平下,样本各观察值之间的差异,称为随机误差。这种差异可以看成是随机因素的影响。,系统误差:不同水平下,各观察值之间的差异。这种差异可能是由于行业本身所造成的,称为系统误差。,8.1 单因素方差分析,一、单因素方差分析问题的提法,8.1 单因素方差分析,试验指标:薄板的厚度,因素:机器,水平:三台不同的机器即为三个不同的水平,单因素试验,试验目的:考察机器这一因素对薄板的
3、厚度有无显著的差异,8.1 单因素方差分析,试验指标:电路响应时间,因素:电路类型,水平:四种不同的电路即为四个不同的水平,单因素试验,试验目的:考察电路类型这一因素对响应时间有无显著影响,8.1 单因素方差分析,试验指标:射程,因素:燃料(A)、推进器(B),水平:因素A有4个水平,因素B有3个水平,双因素试验,试验目的:考察推进器和燃料这两个因素对射程是否有显著影响,8.1 单因素方差分析,以例1讨论单因素方差分析的方法:,在因素的每个水平下进行独立试验,其结果就是一个样本,表中数据可看成来自三个不同总体的样本值,,本题需要检验假设:,8.1 单因素方差分析,8.1 单因素方差分析,假设:
4、,未知,,不同水平 下的样本之间相互独立.,由假设,有,记,则有,单因素试验方差分析的数学模型,8.1 单因素方差分析,方差分析的任务:,为便于讨论,记,( ),引入记号,( ),的效应,总平均,(1.1),8.1 单因素方差分析,记,水平Ai下的样本均值;,总偏差平方和:,总的样本均值.,组内偏差平方和:,组间偏差平方和:,(误差平方和),反映了全部试验数据之间的差异,反映了水平Aj 内由随机误差而引起的波动,由水平Aj的效应的差异以及随机误差引起,总离差平方和分解式:,(1.5),8.1 单因素方差分析,二、平方和的分解,(总变差),(效应平方和),8.1 单因素方差分析,三、SE, SA
5、的统计特性,1、SE的统计特性,8.1 单因素方差分析,四、假设检验问题的拒绝域,2、SA的统计特性,8.1 单因素方差分析,8.1 单因素方差分析,8.1 单因素方差分析,8.1 单因素方差分析,8.1 单因素方差分析,【例5】工程师测量了四种不同类型外壳的彩色显像管的传导 率,得传导率的观察值如下表:,问:外壳类型对传导率是否有显著影响?,8.1 单因素方差分析,解:设水平Ai下的总体为,已知:,8.1 单因素方差分析,方差来源,平方和,自由度,F值,临界值,因素A,总和,试验误差,方差分析表,因为,故拒绝原假设H0,即认为因子是显著的。,8.1 单因素方差分析,本章目录,8.1 单因素方
6、差分析8.2 双因素方差分析8.3 一元线性回归分析,一、问题的提出,实际应用中,影响试验结果的因素往往不止一个,为此需要讨论多因素方差分析问题。(在此只讨论双因素方差分析):,因素A,因素B,B1 B2,A1A2,20 60,50 90,因素A,因素B,B1 B2,A1A2,20 100,50 80,表1,表2,从表1看出:因素A与因素B各自单独地对试验结果产生影响,相互之间无影响;,从表2看出:因素A与因素B之间的搭配对试验结果产生影响(称为交互作用)。,为简单起见,只讨论A、B无交互作用下的双因素方差分析问题,此时对A、B的每一种搭配只进行一次试验。,8.2 双因素方差分析,假定要考察两
7、个因素A、B对某项指标值的影响,,因素A取s个水平A1,A2,As,,因素B取r个水平B1,B2,Br ,,在A、B的每对组合水平(Ai, Bj)上作一次试验,,试验结果为Xij,i=1,s;j=1,r。,所有Xij独立,数据列于下表:,要考察因素A、B是否指标值产生显著性影响?,8.2 双因素方差分析,设搭配(Ai, Bj)下的试验结果为Xij,假定,则问题归结为检验假设:,8.2 双因素方差分析,类似于单因素方差分析的方法,在检验之前,必须把因素A,因素B及随机误差引起的数据波动从总波动中分离出来:,记:,于是,8.2 双因素方差分析,SA是由因素A的不同效应和随机误差引起的偏差;,SB是
8、由因素B的不同效应和随机误差引起的偏差;,S e表示由随机误差引起的偏差.,8.2 双因素方差分析,当H0A成立时,有,当H0B成立时,有,H0A的拒绝域为,H0B的拒绝域为,给定显著性水平 ,则有,8.2 双因素方差分析,因素A,因素B,数据计算表,8.2 双因素方差分析,方差来源,平方和,自由度,F值,临界值,因素A,总和,试验误差,方差分析表,拒绝域为:,因素B,8.2 双因素方差分析,【例1】为了研究不同地点,不同季节大气飘尘含量的差异 性,对地点(A)取三个不同水平,对季节(B)取四个不 同水平,在不同组合(Ai, Bj)下各测得一次大气飘尘含量(mg/m2),结果列于表11.8,试
9、求研究地点间的差异及季节 间的差异对大气飘尘含量有无影响?,8.2 双因素方差分析,解:,方差来源,平方和,自由度,F值,临界值,因素A,总和,试验误差,方差分析表,因素B,8.2 双因素方差分析,本章目录,8.1 单因素方差分析8.2 双因素方差分析8.3 一元线性回归分析,8.3 一元线性回归,8.3.1 问题的提法,变量间的不确定关系(即由度量上的误差与其他不可控的随机因素导致的这种关系)称为相关关系。,(一元)线性回归就是这种关系中的最简单的一种。,回归分析就是寻找这类不确定的变量之间的数学关系式并进行统计推断的一种方法。,相关关系,显然,函数关系是相关关系的特例.,【父与子的身高关系
10、】,(单位:英寸),(单位:厘米),19世纪,英国生物学家、统计学家高尔顿(F.Galton)在研究父与子的身高关系时,提出了“回归”一词,并得到如下回归方程:,通过方程发现:父亲身高每每增加一个单位,儿子身高平均增加0.516个单位;父亲身高小于177cm时,儿子是身高高于父辈平均身高;反之,儿子身高低于父辈平均身高。,父子两代的平均身高有向中心回归的的趋势回归分析因此而提出。,8.3 一元线性回归,8.3.1 问题的提法,散点图与一元线性回归模型,8.3 一元线性回归,8.3.1 问题的提法,设x是一可控制的变量(普通变量), 是与x 有关的随机变量,如何确定这两者的关系呢?,【例1】在维
11、尼纶的生产过程中经常使用甲醛浓度x来控制缩醛化度 ,试验结果如下:,独立同分布于,与x具有如下关系:,.(1),对于每一个观察点(xi, yi),满足,.(2),(1)、(2)称为一元(正态)线性回归模型,a、b称为回归系数,建立在一元线性回归模型基础上的统计分析称为一元线性回归分析。,8.3 一元线性回归,8.3.1 问题的提法,一元线性回归分析的研究内容,因为,(1),(3),(3)式称为一元线性回归方程,其图形称为回归直线。,(反映了 的“平均”或“主要部分”),一元线性回归分析的主要内容有:,(1)对参数a,b进行点估计,估计量 称为样本回归系数或经验回归系数,于是有,(4),(4)式
12、称为经验直线回归方程,其图形称为经验回归直线。,8.3 一元线性回归,8.3.1 问题的提法,(2)检验 与x之间是否线性相关。如果不线性相关,所建立的回归直线方程也就失去了应用价值。,(3)如何利用所取得的线性关系,通过x来对 进行预测或由 来控制x的范围。,注:,(1)实际问题中,x可能是一个随机变量,但由于假定其可控制,故认为x是非随机变量。,(2)较一元线性回归模型更为一般的回归模型为:,常见的是多元线性回归模型:,8.3 一元线性回归,8.3.1 问题的提法,8.3 一元线性回归,8.3.2 回归系数a, b 的最小二乘估计,求a, b 的估计量 实际上就是要确定一条经验回归直线用它
13、来近似表示 和x的关系。,为便于研究,引入,越小越好,最小二乘法就是求得 使 达到最小值:,注1:一元线性回归分析中的最小二乘法估计量即是极大似然法估计量,但前者比后者更方便不必知道随机变量的概率分布。注2: 为 的无偏估计量。,其中,8.3 一元线性回归,8.3.2 回归系数a, b 的最小二乘估计,8.3 一元线性回归,8.3.3 相关性检验,如果 与x不具有近似的线性相关性(即b=0),则经验回归方程就失去了其应用价值,为此必须对 与x 之间是否具有线性相关关系进行检验。,原 假 设:,数据间的总波动,偏差平方和的分解式:,由x 的线性作用引起的波动,x的线性作用外其他因素引起的波动,总
14、偏差平方和,回归平方和,残差平方和,1、F 检验法,检验函数:,拒绝域:,若方程的线性相关程度较高,则总波动应主要由线性作用所引起,因此U 较大,Q 相对较小;反之,如果方程不具有线性关系或程度较低,则总波动应由其他因素所引起,即U 较小,Q较大。,双边?左单边?右单边?,右单边,其中 由 确定,8.3 一元线性回归,8.3.3 相关性检验,对给定的检验水平 ,利用附表9,按自由度n-2,查表确定,若 ,则拒绝H0,即认为回归方程是显著的。,2、相关系数检验法,记,该值越大,方程的线性相关性越显著,检验函数:,拒绝域:,11.3 一元线性回归,11.3.3 相关性检验,不应该太大,即,3、T
15、检验法,可以证明,检验函数:,拒绝域:,检验方法:,(1) F检验法; (2)相关系数检验法; (3)T 检验法.,以上三种检验方法效果一致,但(2)更简便。,8.3 一元线性回归,8.3.3 相关性检验,8.3 一元线性回归,8.3.4 预测与控制,当 x = x0 时,如何对因变量 的观察值 进行预测?,回归值:,经验回归值:,(随机变量),以此作为 的点预测。,对给定的检验水平 , 的置信度为 预测区间为:,当n很大时,,1、 的预测区间,8.3 一元线性回归,8.3.4 预测与控制,其中x1,x2由如下方程组解出:,则相应的x0应落在什么范围内,如,2、 的控制,为了把 以不小于 的概率控制在 内,即,【例2】在某种产品的表面腐蚀刻线,腐蚀深度 与腐蚀时间 x 有关,测得结果如下:,(1)检验腐蚀深度与腐蚀时间之间是否存在显著的线性相关 关系,如果存在,求 关于x的线性回归方程。,(2)预测x =100s时腐蚀深度的变化区间(取置信度为0.95),8.3 一元线性回归,【解】(1),于是,查表得,因为,故 与x的线性相关性特别显著。,于是可求回归系数:,所以线性回归方程为:,8.3 一元线性回归,(2)x0=100s时,,所求的腐蚀深度的变化区间为,于是,8.3 一元线性回归,本章结束,谢谢大家!,