《关于多元线性回归的毕业论文abpk.doc》由会员分享,可在线阅读,更多相关《关于多元线性回归的毕业论文abpk.doc(28页珍藏版)》请在三一办公上搜索。
1、摘 要许多现象往往不是简单的与某一因素有关而是要受多个因素的影响,此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化,这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元性回归。本文的研究主要从四个部分来进行。第一章从基础内容和研究对象着手,对主要研究内容进行了简单的阐述。第二章对多元线性回归的基础进行了详细分析。第三章介绍了中国经济的现状。最后通过多元线性回归模型对我国工业生产总值进行了分析。总的来说,本文在2007年全国各省市主要工业产品的产量与工业总产值的具体数据下,选用塑料、水泥、钢筋、平板玻璃、粗钢、盘条以及原煤等工业产品的产量作为
2、研究对象,建立多元线性回归模型,并对模型做出参数估计.在此基础上对模型做出一定的解释,对于预测工业总产值具有一定的理论指导和现实意义。关键词:多元线性回归模型 工业生产总值 假设检验 预测Abstract Many phenomena are often not simply associated with a number of factors but with varieties. At this point we need to use two or more factors as independent variables to explain changes in the depen
3、dent variable. This is also known as multiple regression. When more than one independent variable and the dependent variable are linear relationship, the regression analysis is carried out by diversity regression.The main research work of this thesis is divided into four parts. In the first chapter,
4、 the thesis proceed from the basic content and object of study and elaborate main content simply. In the second chapter, multiple linear regression model is analyzed detail. In the third chapter, the thesis introduces status quo of china. And at last, gross industrial production is analyzed by multi
5、ple linear regression model in this article. Over all, this article use the specific data of the output of major industrial products and industrial output in nationwide provinces in 2007, and select the output of plastics, cement, steel, plate glass, crude steel, wire rod and raw coal as study objec
6、t to establish multiple linear regression model, and then make the model parameter estimation. Based on this,we make some explanations to the model. All of these are of momentous current significance and far-reaching historical significance to the forecast of industrial production.Key Words: Multipl
7、e linear regression model Gross industrial production Hypothetical test Prediction 目 录摘要.1Abstract.21 绪论42 多元线性回归分析基础52.1 多元线性回归定义52.2多元线性回归模型.6 2.2.1模型的建立及矩阵表示.6 2.2.2模型的假设72.3 多元线性回归参数估计72.3.1 最小二乘估计和正规方程组72.3.2 最小二乘估计的矩阵形式82.4 回归拟合度评价和决定系数92.4.1 离差分解和决定系数92.4.2 决定系数的性质及修正可决系数102.5 统计检验112.5.1回归参数
8、的显著性检验(检验)112.5.2回归方程的显著性检验(F检验)122.5.3 多重共线性检验12 2.5.4 异方差检验.133 中国经济现状153.1中国经济现状153.2 工业生产总值的概述154 工业生产总值的多因素模型分析164.1建立多因素分析模型164.2数据收集164.3 统计检验194.4 计量经济学检验及模型修正204.4.1 异方差检验214.4.2 自相关检验215 结论.26致 谢.27参 考 文 献281绪 论在各个方面,变量之间的关系一般来说可分为确定性的与非确定性的两种。确定性关系是指变量之间的关系可以用函数关系来表达的。另一种非确定性的即所谓的相关关系。例如人
9、的身高与体重之间存在着关系,一般来说,人高一些,体重也要重一些,但同样高度的人,体重往往不相同。人的血压与年龄之间也存在着关系,但同年龄的人的血压往往不相同。气象中的温度与湿度之间的关系也是这样的。这是因为我们涉及的变量(如体重、血压、适度)是随机变量,上面所说的变量关系是非确定性的。此时 ,便可以用到回归分析。回归分析能帮助我们从一个变量取得的值去估计另一个变量所取的值。工业生产总值从数值上反应一个地区的工业生产规模,是衡量一个地区的经济繁荣程度的重要指标。研究研究工业总产值与格工业产出指标之间的关系具有非常重要的现实意义,对于做好一个地区的的工业产值预测以及制定国民经济发展规划都有的非常重
10、要的作用。工业总产值 是指以货币表现的工业企业在一定时期内生产的已出售或可供出售的工业的产品的总量。它是反映一定时间内工业生产总规模和,总水平的重要指标,是计算工业生产发展速度和主要比例关系,计算工业产品销售率和其他经济指标的重要依据。工业总产值包括成品价值、工业性作业价值和自制半成品、在产品期末期初差额价值。工业,总产值采用“工厂法”计算,即以工业企业作为一个整体,按企业工业生产活动的最终成果来计算。但各企业之间、行业之间、地区之间存在着重复计算。其计算公式为:报告期工业总产值=报告期全部产品的成品价值+报告期工业性作业价值+(报告期自制半成品和在产品期末余额- 报告期自制半成品和在产品期初
11、余额) 计算工业总产值采用的价格有不变价格和现行价格。即,工业生产总值收多个因素影响,此时便需要多个影响因素来分析工业生产总值的变化。而这些变量之间的关系是线性的,这样在分析工业生产总值是用到的回归分析方法便是多元线性回归。2 多元线性回归分析基础2.1多元线性回归定义在客观世界中普遍存在着变量之间的关系。变量之间的关系一般来说可分为确定性的与非确定性的两种。确定性关系是指变量之间的关系可以用函数关系来表达的。另一种非确定性的即所谓的相关关系。例如人的身高与体重之间存在着关系,一般来说,人高一些,体重也要重一些,但同样高度的人,体重往往不相同。人的血压与年龄之间也存在着关系,但同年龄的人的血压
12、往往不相同。气象中的温度与湿度之间的关系也是这样的。这是因为我们涉及的变量(如体重、血压、适度)是随机变量,上面所说的变量关系是非确定性的。此时 ,便可以用到回归分析。回归分析能帮助我们从一个变量取得的值去估计另一个变量所取的值。在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此多元线性回归比一元线性回归的实用意义更大。在研究问题是,我们考虑一个变量受其他变量的影响时,把这变量称为因变量,记为,其他变量称为自变量,记为,这时相关系数可记作 其中
13、为当时,因变量的均值,即.称为对的回归函数,为与的偏差,它是随机变量,并假定。回归函数可以是一元函数,也可以是多元函数,即 其中 为元回归函数,统称为多元回归函数。2.2多元线性回归模型2.2.1 模型的建立及矩阵表示多元线性回归模型的一般形式是: (2.1)其中是回归系数,Y是被解释变量,,,是k个对Y有显著影响的解释变量(k2),是 反映各种误差扰动综合影响的随机项,下标i表示第i期观察值(,), 。假设多元样本回归函数为:回归残差为:。由于有n期的观察值,这一模型实际上包含个方程写成矩阵形式: (2.2)其中2.2.2 模型的假设因为多元线性模型的建立或选择过程包含相当的主观性,所依据的
14、理论和经验也可能不正确,因此并不能保证模型符合变量的实际关系。而如果模型本身有问题,那么分析的有效性和价值就很难有保证,为了保证所分析的变量关系符合多元线性回归分析的基本规定性,明确分析对象,保证回归分析的有效性和性质,也为了检验判断的依据,需要对多元线性回归模型作一些架设,共包括下列六条:(1)变量和,(=1,2.n)之间,存在线性随机函数关系,其中是随机误差项。(2)对应每组观测数据的误差项,都为零均值的随机变量,即的数学期望E()=0对=1,2.n都成立。(3)误差项的方差为常数,即 对=1,2.n 都成立(假设(2)成立为前提)。(4)对应不同观测数据的误差项不相关,即对任意的都成立(
15、假设(1)成立为前提)。(5)解释变量是确定性变量而非随机变量。当存在多个解释变量(r1)时假设不同解释变量之间不存在线性关系,包括严格的线性关系和强的近似线性关系。(6)误差项服从正态分布7。2.3 多元线性回归参数估计2.3.1 最小二乘估计和正规方程组这里直接根据回归残差平方和最小的准则,推导多元线性回归模型参数的最小二乘估计量。对于多元线性回归模型,如果用,分别表示模型参数,,的估计,那么样本回归方程就是回归残差平方和为: (2.3)当V对,的一阶偏导数都等于0,即下列方程组: , ,同时成立时,有最小值。对这个方程组整理,可得到如下的正规方程组: 其中, 上述正规方程组有K+1个方程
16、,未知数也是K+1个。只要系数矩阵非奇异即满足解释变量矩阵列满秩:。此时,有,可逆。可以解出,的唯一的一组解,就是,的最小二乘估计8。 2.3.2 最小二乘估计的矩阵形式 引进参数估计量,解释变量回归值和回归残差的下列向量表示: , , (2.4)把样本数据分别带入样本回归方程,得到回归方程组为: , (2.5) 写成等价的向量方程,则为:这样回归残差向量为:在利用向量,矩阵的运算法则,可以得到残差平方和为=求对,的偏导数,等价于对向量求梯度,因此最小二乘估计的正规方程组为:整理得到矩阵 形式:当可逆,也就是是满秩矩阵,在上述向量方程两端左乘的逆矩阵,得到: (2.6)这就是多元线性回归模型最
17、小二乘估计的矩阵一般形式。2.3.3 最小二乘估计量的性质 (1)线性性: 多元线性回归模型参数的最小二乘估计向量为:,各个参数的最小二乘估计向量为,其中的是矩阵的+1行元素构成的行向量,上式对=1,K都成立,正是被解释变量观测值的线性组合,也就是多元线性回归参数的最小二乘估计是线性估计。(2)无偏性:多元线性回归的最小二乘估计也是无偏估计,即参数最小二乘估计量的数学期望都等于相应参数的真实值,最小二乘估计向量的数学期望等于参数真实值的向量,参数真实值是参数估计量的概率分布中心。 (3)最小方差性:根据最小二乘估计公式和模型假设,可以直接导出包含各个参数估计量方差和不同参数估计量协方差的,参数
18、估计向量的协方差矩阵为: (2.7)2.4 回归拟合度评价和决定系数2.4.1 离差分解和决定系数 判断回归结果好坏基本标准,是回归直线对样本数据的逆合程度,称为“拟合度”。回归直线的逆合度一方面取决于回归直线的选择,这就是由参数估计方法决定的,另一方面则取决于样本数据的分布。当参数估计方法固定时,主要取决于样本数据的分布。样本数据的分布在本质上是由变量关系决定的。因此回归拟合度也是检验模型变量关系真实性,判断模型假设是否成立的重要方法。拟合度较好是对模型的支持,否则,可能意味着必须对模型进行修改。首先需要从Y的离差中分离出由解释变量决定的部分,因变量的实际观测值与其样本均值的离差即总离差()
19、可以分解为两部分:一部分是因变量的理论回归值与其样本均值的离差(), 它可以看成是能够由回归直线解释的部分,称为可解释离差;另一部分是实际观测值与理论回归值的离差(),它是不能由回归直线加以解释的残差。 对任一实际观测值Y总有: (2.8)对公式(2.8)两边平方并求和并计算,可得到: 根据最小二乘估计和回归残差的相关公式,所有的离差的平方和记为=称为“总离差平方和”,而记为称为“残差平方和”, 记为称为“回归平方和”。式(2.9)两边同除以,得: (2.10)显而易见,各个样本观测点与样本回归直线靠的越近,在中所占的比重就越大。(2.10)式中的正是反映解释变量(或回归直线)对被解释变量决定
20、程度的指标,我们称它为“决定系数”(determined coefficient),通常用表示。计算公式为: 2.4.2 决定系数的性质及修正可决系数决定系数是对回归模型拟合程度的综合度量,决定系数越大,模型拟合程度越高。决定系数越小,则模型对样本的拟合程度越差。决定系数具有如下性质:(1) 决定系数具有非负性。由决定系数的定义式可知,的分子分母均是不可能为负值的平方和,因此其比值必大于零。(2) 判定系数的取值范围为01。由的计算公式可以看出:当所有的观测值都位于回归直线上时,=0,这时=1,说明总离差可以完全由所估计的样本回归直线来解释;当观测值并不是全部位于回归直线上时, 0,则0,这时
21、1;当回归直线没有解释任何离差,即模型中解释变量与因变量完全无关时,的总离差全部归于残差平方和,即,这时0。(3) 判定系数是样本观测值的函数,它也是一个统计量。判定系数的大小受到自变量的个数k的影响。可以证明,增加自变量的个数,回归平方和增大,从而使得增大。由于增加自变量个数引起的增大与拟合好坏无关,在含自变量个数k 不同的模型之间比较拟合程度时,就不是一个合适的指标,必须加以调整。调整方法为:把残差平方和与总离差平方和之比的分子分母分别除以各自的自由度,变成均方差之比,以剔除自变量个数对拟合优度的影响。调整的判定系数为: (2.11)用这个调整的决定系数作为评价多元线性回归拟合度的评价标准
22、,可以基本消除由于解释变量数目的差异所造成的影响,更加合理和具有可比性。2.5 统计检验2.5.1回归参数的显著性检验(检验)先要找出回归系数的分布,由上述知识得知: (2.12)其中为的第j行j列的元素。将标准化。一般有未知,用代替,得统计量,以下可用统计量来进行回归系数的假设检验。同一元线性回归一样,要检验解释变量对因变量的线性作用是否显著,要使用检验。步骤如下:(1) 提出假设。 , ,(2) 在成立条件下,根据样本计算 (3) 给定显著性水平,查表得临界值(4) 判断若,就拒绝,对有显著线性作用;若,就接受,对线性作用不显著。2.5.2回归方程的显著性检验(检验)多元线性回归模型还可以
23、进行模型总体显著性检验,也就是全体解释变量总体对被解释变量是否存在明显影响的检验,回归显著性检验的基本方法,是检验模型常数项以外所有参数同时为0的假设,使用检验。步骤如下:(1) 提出假设。 不全为0(2) 选择、(根据样本)计算统计量(3) 给定显著性水平,查表,得(4) 判断若,就拒绝,回归方程显著成立,所有自变量对Y 的影响是显著的;若,就接受,回归方程不显著,所有自变量对Y 的线性作用不显著。2.5.3 多重共线性检验在多元线性回归模型中,对的基本假定是:矩阵的各列向量之间是线性无关的,即有:如果这一假定不满足,则称模型存在多重共线性。多重共线性表现为两种情况: (1) 完全多重共线性
24、:,也就是,不存在。(2) 不完全多重共线性:(实际中多为此情况),对角线元素较大。而一般产生多重共线性的背景为:(1)时间序列数据中经济变量在时间上常有共同的变动趋势;(2)经济变量之间本身具有内在联系(常在截面数据中出现);(3)由于某种决定性因素的影响可能使各个变量向着同方向变化;(4)滞后变量引入模型,同一变量的逐次值一般都存在相互关系;多重共线性的检验方法有:(1)简单相关系数矩阵法(辅助手段) 此法简单易行;但要注意两变量的简单相关系数包含了其他变量的影响,并非它们真实的线性相关程度的反映;一般在0.8以上可初步判定它俩之间有线性相关。(2)变量显著性与方程显著性综合判断;(修正)
25、可决系数大,值显著大于临界值,而值不显著;那么可认为存在多重共线性。(3)辅助回归: 将每个解释变量对其余变量回归,若某个回归方程显著成立,则该解释变量和其余变量有多重共线性。 多重共线性的克服和处理方法有:截面数据和时序数据结合,有时在时间序列数据中多重共线性严重的变量,在截面数据中不一定有严重的共线性。在假定截面数据估计出的参数在时间序列数据中变化不大的前提下,可先用截面数据估计出一些变量的参数,再代入原模型估计另一些变量的参数。 变换模型形式(差分法): 假设和存在高度线性相关。 设原模型为: 将其滞后一期: 将上述两式相减,得: 则上述差分式子变成: 差分后,和的共线性将明显减弱。2.
26、5.4 异方差检验在回归模型的假设得到满足之后,用最小二乘法估计的模型参数具有无偏和方差在线性无偏估计方法中最小的有效性,在这些假设中,其中有一条是误差项的方差不变。如果误差项的方差随观测次数的改变而改变,或随解释变量增减而变化,则称回归模型中存在异方差。异方差可以表示为或其中异方差的的发现和检验方法有戈德菲尔德-夸特检验:构造统计量: .如果,误差项存在明显的递增异方差性;如果,误差项没有明显的异方差性。异方差的克服和处理:如线性回归模型为,经检验,误差项有如下异方差性,可以用除模型各项,得到:,新模型的误差项方差为: .3 中国经济现状3.1 中国经济现状改革开放30年来,中国经济持续高速
27、增长,相当程度上是依赖于中小企业的崛起。快速、健康和持续发展的中小企业,对经济增长的贡献有目共睹:在繁荣经济、促进增长、国际贸易、扩大就业、推动创新、提高消费能力等方面发挥着重要的作用,已成为推动我国经济社会发展的重要力量,是大企业发展的依托,是活跃市场的基本主体,也是经济活力的具体体现1。回顾2008年中国:我们经历了年初的雪灾、5月的地震灾害、8月承办奥运、中国股市连连下挫,上证指数从2007年的最高点6124点一路下滑至2008年8月份的最低点2284点、半年光景约有6.7万家中小企业倒闭、国际油价的居高不下,煤、电、油、运全面紧张。针对新局势、新变化,我国政府把防过热、防通胀的经济政策
28、迅速调整为保发展、控通胀。确保发展和控制物价是对立的统一,既有矛盾,也可以相互促进,关键在于我们采取什么样的政策,拉动GDP的三大要素是投资、消费和进出口,根据相关研究今年经济增长如果不超过9.4%,通货膨胀率控制在5%左右,就是一个很好的平衡点,能为明年打下一个好的基础2。 中国经济正处在低谷的边缘。因为我国经济面临内忧外患,内忧是通货膨胀,外患是全球经济放缓,这些都对我国经济有很大影响,我们正在经历着动荡的考验:美元走低、人民币升值、外需放缓,这对于对外依存度超过60%的中国经济,是一次巨大的挑战3。对于中小企业而言在投资和出口问题上主要依赖于国家的宏观调控,就困境中的中小企业本身来说基本
29、上是无能为力的,然而可以团结起来、集合资源,向管理要效益,向降低成本要效益,从扩大内需中要效益,那么就要进一步激励民众扩大内需、大力推动消费、刺激消费,寻找一种能够产生新的消费热情的方法上下功夫,在实现消费增值的基础上取得企业效益,从而保持企业持续健康的发展。3.2工业生产总值的概述工业总产值是指以货币表现的工业企业在报告期内生产的工业产品总量。工业总产值按“工厂法”计算,即以工业企业作为一个整体,按企业工业生产活动的最终成果计算5。企业内部不允许重复计算,不能把企业内部各个车间生产的成果相加。工业总产值包括成品价值、对外加工费收入和自制半成品、在产品期末期初差额价值8。4 工业生产总值的多因
30、素模型分析4.1建立多因素分析模型设 其中:为工业总产值(按当年价格,单位:亿元)为塑料制品产量(单位:万吨)为水泥产量(单位:万吨)为平板玻璃产量(单位:万重量箱)为生铁产量(单位:万吨)为粗钢产量(单位:万吨)为钢筋产量(单位:万吨)为盘条产量(单位:万吨)为随机误差项。4.2数据收集研究工业生产总值与经济发展之间的关系严格来说可以对每个地区进行研究,但是具体到各个地区,根据各个地区的条件情形不同,所以对研究得出的数据也会有很大的差异,所以此次就对同一地区的工业生产总值与经济发展之间的关系作为研究,就对一个地区的数据进行收集,然后得出结论,这个结论可以反映出这个地区的工业生产值与经济发展的
31、关系,为促进经济发展,针对某一地区的经济发展,我们可以对它进行几十年的数据收集,得出这个地区的经济发展情况。下面我们以中国2007年各省市的主要工业产品产量统计量为研究对象,通过对这些数据和工业总产值的数据建立的线性关系来预测工业总产值。(1) 工业总产值来自中国2007年按地区分组的专用设备制造业工业企业主要经济指标统计(一);(2) 原煤来自中国2007年按地区分组的主要工业产品产量统计(一);(3) 由于西藏自治区一行中缺省数据太多,故删除了西藏一栏;(4) 中国2007年按地区分组的主要工业产品产量统计(六)具体数据见下表4.1:表4.1 原始数据地区工业总产值(当年价格)塑料制品 (
32、万吨)水 泥 (万吨)平板玻璃(万重量箱)生 铁(万吨)粗 钢(万吨)钢 筋(万吨)盘 条(万吨)全国10591.983305.23136117.2553918.0747651.6348928.810275.487919.02北京331.9232.661168.6235.22780.51810.76296.34416.3天津204.8240.9614.79186.061435.41602.13185.1964.14河北376.27137.379758.2810031.7610523.0110569.291335.431171.84山西258.4913.442780.91971.913727.6
33、42506.36372.93465.82内蒙古124.346.052871.171395.721260.091040.36100.9676.63辽宁680.18159.33893.21941.214057.594140.27246.94453.91吉林94.5721.971903.81850.76545.66599.6730.5969.16黑龙江175.4114.061645.06490.21374.11436.05184.533.3上海600.5772.46959.44744.531790.362081.5823.2178.48江苏1425.76327.3711849.786856.1138
34、02.154721.471577.49949.47浙江875.07768.8810548.512917.53238.08577.23131.63183.74安徽173.27111.175402.23472.561517.71663.61501.04257.69福建253.94106.664500.11867.12477.88588.82289.47222.27江西56.0912.955008.54686.641047.361306.81496.39332.42山东1736.69315.4715023.895175.614906.674406.911090.68638.12河南797.9121.
35、699471.363619.931974.952275.39556.84660.1湖北126.5853.715638.852178.341679.791778.17226.99178.93湖南425.5623.255683.281518.121247.761331.79337.18224.3广东923.24754.459799.576123.03755.251154.03444.76284.86广西175.5321.714350.48530.34639.3765.67288.06207.22海南2.032.25633.327.6818.844.546.540.67重庆84.8522.68300
36、0.05254.18328.38358.3649.76102.41四川364.483.516375.62495.791470.731415.34492.78195.91贵州28.317.962059.062.5363.19349.36176.45118.83云南37.2416.113568.53329.81202.78883.85228.43183.61陕西181.625.143175.491175.08365.55396.27318.9453.67甘肃52.4110.321540.21591.89592.78602.898.84140.53青海1.220.27436.8592.9590.09
37、114.711.317.54宁夏16.232.02817.3661.8246.250.3637.775.08新疆7.4639.471479.28113.66391.82446.85148.06142.08注1):数据来自中国2007年统计年鉴8w。4.3 统计检验由SPSS计算结果表4.2 Variables Entered/Removed(b)ModelVariables EnteredVariables RemovedMethod1盘条x7, 塑料制品x1, 生铁x4, 平板玻璃x3, 水泥x2, 钢筋x6, 粗钢x50.976Enter a All requested variables
38、 entered. b Dependent Variable: 工业总产值y表4.3 Model Summary(b)ModelRR SquareAdjusted R SquareStd. Error of the EstimateDurbin-Watson10.993(a)0.9870.983245.843471.739 a Predictors: (Constant), 盘条x7, 塑料制品x1, 生铁x4, 平板玻璃x3, 水泥x2, 钢筋x6, 粗 钢x5 b Dependent Variable: 工业总产值y 表4.4 ANOVA(b)ModelSum of SquaresdfMean SquareFSig.1Regression105370311.469715052901.638249.0590.000(a) Residual1390097.2462360439.011 Total106760408.71430 a Predictors: (Constant), 盘条x7, 塑料制品x1, 生铁x4, 平板玻璃x3, 水泥x2, 钢筋x6, 粗钢x5 b Dependent Variable: 工业总产值y表4.5 Coefficient