数据处理及回归分析.ppt

上传人:小飞机 文档编号:6166771 上传时间:2023-10-01 格式:PPT 页数:65 大小:1.89MB
返回 下载 相关 举报
数据处理及回归分析.ppt_第1页
第1页 / 共65页
数据处理及回归分析.ppt_第2页
第2页 / 共65页
数据处理及回归分析.ppt_第3页
第3页 / 共65页
数据处理及回归分析.ppt_第4页
第4页 / 共65页
数据处理及回归分析.ppt_第5页
第5页 / 共65页
点击查看更多>>
资源描述

《数据处理及回归分析.ppt》由会员分享,可在线阅读,更多相关《数据处理及回归分析.ppt(65页珍藏版)》请在三一办公上搜索。

1、数据处理及回归分析,目 录,1 列表法-三线式表格,一、几种常见的数据处理方法,表格的基本结构:通常由表头、项目栏和数据栏组成,表 头:表格的编号、名称。,项目栏:相关物理量,单位等。,数据栏:记录测量数据。,三线式表格,无边框的表格,只由三条横线组成。分别是:,起始线:表格序号和名称应写在起始线上方。,分隔线:用来分隔项目栏和数据栏。,终止线:数据到此为止。,列表的要求是:(1)简明。(2)标明物理量的意义,注明单位及数量级。(3)正确反映测量结果的有效数字。,2 图解图示法,图示法可以形象、直观地显示出物理量之间的函数关系,也可以得出某些物理参数,因此它是一种重要的数据处理方法。作图时要先

2、整理出数据表格,并要用坐标纸作图。,图解法是将实验测量数据按其对应关系在坐标纸上描绘出一条光滑的曲线。此曲线可以显示出物理量间的关系。,作图要求:,坐标轴:一般以自变量为X轴,应变量为Y轴。并画出坐标轴,用箭头标明坐标轴方向,写上物理量名称或符号、单位。,定标尺:标明坐标纸上的一小格代表的大小。,描点:清晰准确地标出实验数据点。,选坐标纸:选择合适的坐标纸,包括类型和大小。,连线:用直尺、曲线板等把数据点连成直线或光滑曲线。连线时应该使数据点均匀分布在图线两边。,标上图名。,曲线太粗,不均匀,不光滑。应该用直尺、曲线板等工具把实验点连成光滑、均匀的细实线。,错在哪里?,电学元件伏安特性曲线图,

3、横轴坐标分度选取不当。横轴以3 cm 代表1 V,使作图和读图都很困难。实际在选择坐标分度值时,应既满足有效数字的要求又便于作图和读图,一般以1 mm 代表的量值是10的整数次幂或是其2倍或5倍。,错在哪里?,图纸使用不当。实际作图时,坐标原点的读数可以不从零开始。,错在哪里?,物理实验中心,图解法,根据已有图线,采用解析方法得出物理量之间的函数关系,这种由图线求经验公式的方法称为图解法。,斜率计算及不确定度,曲线的改直在实际工作中,许多物理量之间的关系并不都是线性的,但仍可通过适当的变换而成为线性关系,即把曲线变换成直线,这种方法叫做曲线改直。作这样的变换不仅是由于直线容易描绘,更重要的是直

4、线的斜率和截距所包含的物理内涵是我们所需要的,例如:(1),式中a,b为常量,可变换成 的线性函数斜率为b,截距为lga。(2),式中a,b为常量,可变换成 的线性函数,斜率为lgb,截距为lga。,(3)PV=C,式中C为常量,可变换成P=C(1/V),P是1/V的线性函数,斜率为C。(4),式中p为常量,可变换成 的线性函数,斜率为。(5),式中a,b为常量,可变换成 的线性函数,斜率为a,截距为b。,目的:在数据处理过程中,能把所有的数据都用上,这样可以使误 差小一点。,3 逐差法,例:测量每增加1kg,弹簧的平均伸长量?,测量弹簧的倔强系数数据表,逐项逐差法处理,这样,弹簧的平均伸长量

5、为:,这样处理的缺点在哪里?,跳项逐差法处理,首先把数据分为两组,然后计算每增加4kg,弹簧的伸长量,,最后算出每增加1kg,弹簧的平均伸长量。,不确定度?,优点:充分利用数据,达到多次测量以减小误差的效果。,适用条件,因变量和自变量之间为线性关系。,自变量是等量变化。,4 最小二乘法,二、回归分析,1 相关与回归客观世界中普遍存在着变量间的关系,而变量间的关系一般可分为两类:确定性关系和非确定性关系。确定性关系:变量间的函数关系。,非确定性关系:不能用函数来表示的变量间关系,也称为相关关系或统计关系。身高与体重;血压与年龄;树高与生长时间;商品的销售量与单价 相关关系:对于两个变量,当自变量

6、取值一定是,因变量的取值带有一定随机性的两个变量之间的关系,2 回归分析(1)确定变量之间数量关系的可能形式,并用一个数学模型来表示这种关系形式(2)X是非随机变量或随机变量,Y是随机变量,对X的每一确定值 都有Y的一个确定分布与之对应。,3 相关分析和回归分析的区别与联系 1.联系 二者具有共同的研究对象,而且在具体应用时,常常必须互相补充。相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。,2.区别(1)相关分析研究变量之间相关的方向和程度,但不能指出变量

7、间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。回归分析则研究变量之间相互关系的具体形式,它对具有相关关系的变量之间的数量联系进行测定,确定一个相关的数学方程式,根据这个数学方程式可以从已知量来推测未知量,从而为估算和预测提供一个重要的方法。,(2)相关分析可以不必确定变量中哪个是自变量,哪个是因变量,其所涉及的变量可以都是随机变量。而回归分析则必须事先研究确定具有相关关系的变量中哪个为自变量,哪个为因变量。,4.回归分析主要解决的问题:从一组数据出发,确定这些变量之间的数学表达式回归方程或经验公式。对回归方程的可信程度进行统计检验,并从影响某一特定变量的诸多变量中找出

8、哪些变量的影响显著,哪些不显著。利用所求的关系式,根据一个或几个变量的值,预测或控制另一个变量的值,并要知道这种预测或控制可达到的精密度。,5 回归分析的基本过程,1、在定性和定量分析的基础上确定变量间的相关关系。2、建立回归分析模型。3、对模型中的参数求解。4、对回归模型的显著性进行检验。5、回归模型的修正和改进。,6 回归模型的建立,(1)一元线性回归模型 假定因变量y主要受自变量x的影响,它们之间的简单线性回归模型如下:为参数,为随机误差项。y是x的线性函数部分加上误差项线性部分反映了由于x的变化而引起y的变化,对于误差项,在回归分析中有如下假设:(1)误差项是随机变量,它的期望值为0;

9、(2)对于所有的x值,误差项的方差 为常数;(3)误差项之间相互独立,即与一个值相联系的误差对与另一个值相联系的误差没有影响;(4)随机误差项服从正态分布。,7一元线性回归方程 描述y的均值或期望与 x的关系的方程叫做回归方程。由于,所以 不难看出,简单线性回归方程的图形是一条直线。这条直线被称为总体回归直线。是回归直线的截距,是回归直线的斜率,E(y)是给定某个x的值y的均值或期望值。各实际观测点与总体回归线垂直方向的间隔,就是随机误差项,即,如果因变量y与自变量x的相关关系是近似直线的关系,则一元线性回归的模型为:,y的估计值或预测值,,回归系数。,确定了a与b的值,直线的位置也就相应地确

10、定了。,8 最小二乘法确定模型参数,最小二乘法的基本原理就是寻一条总的看来离各散点最近的一条直线,使实际值y 与 相应的理论值 之间的误差达到最小。即:,根据微积分的极值定理,Q最小的必要条件为:,整理后得如下方程,称最小二乘法的标准方程:,解方程得,例:以下表的数据拟合生产费用对产量的回归直线方程,将表中有关数据代入公式中:,生产费用对产量的直线回归方程为:,其中a124.15(千克)的含义为生产费用的起点值;b0.4027表示产品产量每增加1千件,生产费用平均增加0.4027千元。,下图可看散点图与回归直线的关系:,9 回归效果的F检验从一组数据根据最小二乘法可以拟合出一元线性方程,但是如

11、果散点图中的数据点分散,不呈线性,此时的线性回归方程是没有意义的。因此,提出了所得到的直线是否有显著意义,即是否与两个变量问实际关系相符合的问题,即必须对回归的效果做显若性检验。回归显著性检验(regression significant test)方法有:相关系数r检验法、t检验法、F检验法,下面讨论F检验法。,测量值y1,y2,yn之间的差异,是由两个方面的原因引起的:一是自变量x取值的不同;二是测量误差等其他因素的影响。为了对线性回归的效果进行检验,需要将他们分离出来,将变量y的n个测值yi与其平均值的偏差()分解为有x的不同取值引起的 回归偏差()和由测量误差等其他因素造成的残余误差(

12、)即,两端平方后求和有,SST=SSR+SSE,并进一步用n个取值的偏离平方和来描述它们,分别记为,总偏差平方和 分解为回归平方和 及残余平方和。回归平方和 反映了在y总的偏差中因x和y的线性关系而引起y变化的大小。残余平方和 反映了在y总的偏离中除了x对y线性影响之外的其他因素而引起y变化的大小。这些因素包括测量误差,x和y不能用直线关系描述的因柬以及其他未加控制的因素等。如上节所述,回归分析的要求就是使残余平方和最小,即残愈小,回归效果愈好。,三个平方和的意义:,由回归平方和及残余平方和的意义可知,一个线性回归方程是否显著,取决于 和 的大小。若 愈大而 愈小,则说明与的线性回归的关系愈密

13、切。构造统计量:,其中,为回归平方和的自由度,为残余平方和的自由度,自由度是指独立观测值的个数,因 中n个观测值 受平均值 的约束,则有一个观测值不是独立的,即失去了一个自由度,=n-1,中只有b是独立变化的,即自由度=1。则=n-2,则有,在给定显著性水平下,由F分布表差得临界值,将计算值F与 比较,若F,则认为该回归效果显著,反之,则不显著。,中的分母为残余方差:,残余标准差为:,它的意义表征除了x与y线性关系之外其他因素影响y值偏的大小,10 回归直线的拟合优度及测定系数,拟合优度:回归直线与各观测点的接近程度称为回归直线对数据的拟合优度。工具一判定系数:对估计的回归方程拟合优度的度量工

14、具。,工具二估计标准误:度量各实际观察点在直线周围的离散状况的统计量,其实质是对误差项e的标准差的估计,它可以看做是在排除了x对y的线性影响后,y随机波动大小的一个估计量。,11 非线性回归,1.化曲线拟合为直线拟合的步骤:选择回归模型。根据实验数据散点图分布的特点以及所掌握的物理规律,选择可线化函数的模型作线性化变量变换后,按一元线性回归问题计算待定的系数、原的剩余平方和。如果对拟合结果不满意,再选择其它模型,重复以上步骤。比较不同模型拟合所得的原剩余平方和,选最小者即为所求。,常见的几种变换形式:,1、双曲线,令,2、幂函数曲线,令,变形,3、指数函数曲线,令,变形,5、S型(Logistic)曲线,令,变形,4、对数函数曲线,令,非线性回归分析,例 测定某肉鸡的生长过程,每两周记录一次鸡的重量,数据如下表,由经验知鸡的生长曲线为Logistic曲线,且极限生长量为k=2.827,试求y对x的回归曲线方程。,解 由题设可建立鸡重y与时间x的相关关系为,令,则有,列表计算,所以,所以所求曲线方程为,谢谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号