《数理统计课程论文.doc》由会员分享,可在线阅读,更多相关《数理统计课程论文.doc(11页珍藏版)》请在三一办公上搜索。
1、福建农林大学计算机与信息学院(数学类课程)课程论文报告课程名称:概率论与数理统计教程实习题目:回归分析在数理统计中的应用实例姓 名:孙莉莉 系:应用数学专 业:数学与应用数学年 级:2009级学 号:091153036指导教师:吴卢荣职 称:副教授2011 年 6 月 25 日福建农林大学计算机与信息学院数学类课程论文报告结果评定评语:成绩:指导教师签字:评定日期: 目录摘要 .21、 问题的提出.32、问题的分析33、问题的解决33.1 问题重述33.2 建立模型33.3 模型求解43.4 模型检验64、小结8参考文献8附录9回归分析在数理统计中的应用实例摘要:回归分析是数理统计中重要的一种
2、数据统计分析的思想。它是研究一个随机变量与一个或多个普通变量之间的相互关系的统计方法。主要是解决从一组数据出发,确立变量间是否存在相关的关系,如果存在相关关系,确定他们之间合适的数学表达式即经验公式或回归方程,并对它的可信度作统计检验;还可以针对从共同影响一个变量的许多变量中,判断哪些变量的影响是显著的,哪些变量是不显著的,并利用所确定的回归方程进行预测和控制。本文就是针对实际问题运用回归分析中一元线性回归分析的统计方法,来确定自变量与另一个变量的相关关系,并确立出较为合理的回归方程,再对其的可信度进行统计检验。关键词:回归分析;回归方程;检验法回归分析在数理统计中的应用实例1、 问题的提出
3、根据以下9组关于营业税税收总额和社会商品零售总额的数据1,确定出两者的关系。 表1 社会商品零售总额和营业税税收总额序号社会商品零售总额营业税税收总额1142.083.932177.305.963204.687.854242.689.825316.2412.506341.9915.557332.6915.798389.2916.399453.4018.452、 问题的分析 营业税税收总额是受很多的因素所决定,但是题目中已经将主要的因素确定为社会商品零售总额,这就大大的减少了在对于自变量的多因素进行分析的过程,从而减少了在计算以及统计上的困难,但是这也在很大的程度上减少了结果的实际意义。在针对本
4、题所给的两个变量之间的关系,作出回归分析以及运用重要的数学软件的实现,从而来确定这两个变量之间的关系,并计算出两者之间的回归方程,再对方程的可信度进行检验。3、 问题的解决 3.1 问题重述 在本题目中已经明确地给出只有两个变量之间的关系,所有可以忽略影响营业税税收总额除社会商品零售总额之外的其他因素,这对于解决问题减少了难度。只要在运用回归分析的统计方法来比较二者之间的关系以及它们之间的相关性,并运用经验的回归公式,计算出二者之间的数学关系式。3.2 建立模型根据表中所给的数据初步作出营业税税收总额和社会商品零售总额之间的数据散点图,并在散点图中找出关于二者之间的初步关系。运用数学软件来作出
5、二者的散点图如下:(MATLAB程序代码如附录一)从散点图中可以看出,这9个点分布在一条直线的附近,从而可以初步认为和的关系基本上是线性的,而这些点与直线的偏离是由其他一切随机因素影响而成的。因此可以假设表1中的数据有以下的关系式: (3-1)其中表示随的变化而线性变化的部分,是一切随机因素影响的总和,有时也称随机误差,它是不可观测其值的随机变量,并假定其数学期望,方差,并且服从正态分布。可以是随机变量也可以是一般变量。而在以下的讨论中,都假定社会商品零售总额是一般变量,即它是可以精确测量或严格控制的。由式子(3-1)可知营业税税收总额是一个随机变量,但其值是可以观测的,其数学期望是社会商品零
6、售总额的线性函数 (3-2)这即是营业税税收总额与社会商品零售总额的相关关系形式。 对表1的几组数据观测值,由式子(3-1)可得 (3-3)各是相互独立;,并且将式子(3-3)称为一元线性回归模型。3.3 模型求解建立一元线性模型(3-3)后的首要任务就是根据所给数据求出从而确立二个变量之间的关系。而通常采用最小二乘估计求模型(3-3)中的的值。令 (3-4)应满足 (3-5)称这样得到的称为的最小二乘估计2。 由于,且对的导数存在,因此最小二乘法估计可以通过求偏导数并令其为零而得到: (3-6)这组方程称为正规方程组,经过整理可得 (3-7)记则有式子(3-7)得 (3-8)这就是求模型(3
7、-3)的最小二乘估计方法。则可以运用以上的模型将表1的数据进行统计计算,利用数学软件算出可得关系如下:(程序代码见附录二) (3-9)将这个回归方程的图像图与散点图进行比较,并进行分析。画出二者的图如下:(程序代见附录三)可以从图中看出表中的9个数据都比较稳定在落在直线的附近,从而可以初步的认为模型(3-3)所确立而得到的回归方程是有意义的,但是还是要通过科学的检验方法来检验它的可信度。3.4 模型检验 建立经验回归方程的目的在于揭示两个相关变量与之间的内在的关系,然而对于任意样本的观测值作出的散点图,即使一眼可以看出与之间根本不存在线性关系,也可以通过式子(3-8)求出回归方程,但此时的回归
8、方程是毫无意义的。所以必须有一种方法去检验回归方程的可信度,在统计中称为回归显著检验3,如果,当越大,随着的变化明显;当越小,随着的变化趋势不明显;特别当=0,,就意味着与没有线性关系。实质上就是要对假设进行检验。为了寻找合适的统计量,对关系式进行分解,并称为总的偏差平方和,它反映的离散程度,由于= (3-10)记 (3-11) (3-12)从而得 (3-13)所以若回归方程有意义,即引起波动主要是由变化而引起的,其他因素是次要的。即要求尽可能大,尽可能小。为此,在此基础上建立检验,其主要思想如下:在为真时,有 (3-14)当不为真时,有变大的趋势,因而也有变大的趋势,故应当取单向拒绝域。对给
9、定的显著水平,当时,认为不真,我们称方程是显著的,反之方程是不显著的,这种用检验对回归方程作显著性检验的方法也称为方差分析。其检验过程可以由一张“方差分析表”来进行。见表2.表2 方差分析表方差来源偏差平方和自由度方差值显著性回归1剩余总和所以运用以上的检验方法来检验回归方程(3-9)的可信度,具体可以运用回归分析中的方差分析程序来实现方差分析表的确立。实现的结果如下:建立回归数据分析变量之间的.txt文件,在利用回归分析程序包来作出如下的回归分析的方差分析表。经过回归分析的方差分析表的结果,可以看出这个回归方程所确定营业税税收总额和社会商品零售总额的关系是符合线性关系的。4、 小结本文主要针
10、对实际问题运用了数理统计中的回归分析的知识去解决。对于营业税税收总额和社会商品零售总额的关系能较为准确的表达式,这对实际有很大的应用,此外还对于预测营业税税收总额有很大的作用。另一方面,在实验的过程中,对于我的理论的实践运用有很大的作用,同时也会给自身带来在实践中的经验。但是在实验的过程中,还是存在着一些问题,如回归方法的确定等。经过这次课程论文的研究中,让我更加明白了数理统计中回归分析对于实际问题的应用于解决,同时也让我明白自己在某些方面还存在着不足,还需要在以后的学习中强化自己的理论知识以及实践能力。参考文献1:茆诗松,程依明,濮晓龙著概率论与数理统计教程北京:高等教育出版社,2010第4
11、13页2:茆诗松,程依明,濮晓龙著概率论与数理统计教程北京:高等教育出版社,2010第397至398页3:王岩,隋思莲,王爱青著数理统计与MATLAB工程数据分析北京:清华大学出版社,2007.7附录附录一%给出向量x和y,利用下面的程序代码可以绘制散点图x=142.08 177.30 204.68 242.68 316.24 341.99 332.69 389.29 453.40;y=3.93 5.96 7.85 9.82 12.50 15.55 15.79 16.39 18.45;plot(x,y,*)xlabel(社会商品零售总额x)ylabel(营业税税收总额y)附录二%给出向量x和y
12、,利用下面的程序代码可以求出回归系数x=142.08 177.30 204.68 242.68 316.24 341.99 332.69 389.29 453.40;y=3.93 5.96 7.85 9.82 12.50 15.55 15.79 16.39 18.45;xp=sum(x,2)/9;yp=sum(y,2)/9;lxy=sum(x.*y,2)-9*xp*yp;lxx=sum(x.*x,2)-9*xp*xp;beta1=lxy/lxxbeta0=yp-beta1*xp附录三%作出散点图与回归方程直线的图像比较x=142.08 177.30 204.68 242.68 316.24 341.99 332.69 389.29 453.40;y=3.93 5.96 7.85 9.82 12.50 15.55 15.79 16.39 18.45;plot(x,y,*)xlabel(社会商品零售总额x)ylabel(营业税税收总额y)hold on,x=100:500;y=0.0487*x-2.2582;plot(x,y);