公司金融案例-线性回归分析.ppt

资源描述

《公司金融案例-线性回归分析.ppt》由会员分享，可在线阅读，更多相关《公司金融案例-线性回归分析.ppt（58页珍藏版）》请在三一办公上搜索。

1、回归分析过程,浙江财经学院金融学院朴哲范,一、回归分析概述,1.回归方程回归分析是处理变量x与y之间统计关系的一种统计方法和技术。如果要由x预测y的值，就要利用x与y的观察值，即样本观测值（x1，y1），（x2，y2），（xn，yn）来建立一个公式，当给定x值后，就代入此公式中算出一个y值，这个值就称为y的预测值。如何建立这个公式？（1）绘制散点图（2）建立线性函数：y=+x2.回归方程线性方程式y=+x中的参数，还不知道，这就需要由样本数据来进行估计，估计出，的值后，以估计值分别代替线性方程式中的，得到方程这个方程就称为回归方程。这里因为因变量y与自变量x的关系呈线性关系，因此我们也

2、称上述方程为线性回归方程，是线性回归方程所画出的直线在y轴上的截距，为直线的斜率，它们分别被称作回归常数与回归系数。,建立实际问题回归模型的过程,1.根据研究的目的，设置指标变量2.搜集整理统计数据3.确定理论回归模型的数学形式4.模型参数的估计5.模型的检验与修改6.回归模型的运用,二、一元线性回归,一元线性回归是描述两个变量之间统计关系的最简单的回归模型。例1 假定一保险公司希望确定居民住宅火灾造成的损失数额与该住户到最近的消防站的距离之间的相关关系，以便准确地确定出保险金额，表1列出了15起火灾事故的损失及火灾发生地与最近的消防站的距离。,参数的估计,线性回归方程的显著性检验,1.相关系

3、数的显著性检验由于一元线性回归方程讨论的是变量x与y之间的线性关系，所以我们可以用变量x与y之间的相关系数来检验回归方程的显著性。当 r=0 时，说明变量之间不存在线性相关关系；当 0 r 1时，说明变量之间存在一定程度的正相关关系；当-1 r 0时，说明变量之间存在一定程度的负相关关系；当r=1 或 r=-1 时说明变量之间完全正相关或完全负相关。,设总体 X 和 Y 的相关系数为 r，则检验的原假设和对立假设为：其中零假设表示：假设变量之间不存在线性相关关系。检验时采用的统计量为：,回归系数的t检验和F检验,回归系数的显著性检验就是要检验因变量y对自变量x的影响程度是否显著。如果原假设成

4、立，则因变量y与自变量x之间并没有真正的线性关系，也就是说自变量x的变化对因变量y并没有影响。构造的t检验统计量为：,F检验,对线性回归方程显著性的另外一种检验是F检验，F检验是根据平方和分解式，直接从回归效果检验回归方程的显著性，平方和分解式为,F检验及决定系数,总平方和反映因变量y的波动程度或称不确定性，在建立了y对x的线性回归后，总平方和SST就分解成回归平方和SSR与残差平方和SSE这两个组成部分，其中SSR是由回归方程确定的，也就是由自变量x的波动引起的，SSE是不能用自变量解释的波动，是由x之外的未加控制的因素引起的。这样，总平方和SST中，能够由自变量解释的部分为SSR，不能由

5、自变量解释的部分为SSE。这样，回归平方和SSR越大，回归效果就越好，可以据此构造F检验统计量：,在零假设成立的情况下，F 统计量服从F分布，第一个自由度为1，第二个自由度为n 2，即 F F(1，n 2)。决策的规则是：对于给定的显著水平，若F F(1，n 2)就拒绝原假设。,由回归平方和与残差平方和的意义我们知道，如果在总的离差平方和中，回归平方和所占的比重越大，则线性回归效果就越好，这说明回归直线与样本观测值拟合优度就越好；如果残差平方和所占比重大，则回归直线与样本观测值拟合得就不理想。这里把回归平方和与总离差平方和之比定义为样本觉得系数，记为：,性质1：决定系数r2是一个回归直线与样

6、本观测值拟合优度的相对指标。r2的值总是在0和1之间，则r2越接近于1，拟合优度就越好，反之亦然。性质2：回归方程的显著性检验与r2值的大小是一致的，即检验越显著，r2就越大，但是这种关系并不是完全确定的，在样本容量n很大时，对高度显著的检验结果仍然可能得到一个小的r2。导致r2小的可能原因有两个，第一是线性回归不成立，第二是y与x之间的确符合线性模型，只是误差项方差大导致r2小，这时在样本容量你很大时，检验结果仍然可能得出线性回归显著的结论。,2.5 残差分析,一个线性回归方程通过了t检验或F检验，只是表明变量y与x之间的线性关系是显著的，或者说线性回归方程是有效的，但不能保证数据拟合得很好

7、，也不能排除由于意外原因而导致的数据不完全可靠。只有当与模型中的残差项有关的假定满足时，才表明模型有效。2.5.1 残差的概念：实际观测值y与通过回归方程给出的回归值之差，残差ei可以看做是误差项的估计值。,残差图分析模型的有效性。,一般认为，如果一个回归模型满足所给出的基本假定，所有残差应是在e0附近随机变化，并在变化幅度不大的一条带子内。残差图：以自变量x作横轴，以残差为纵坐标，讲相应的残差点画在直角坐标系上，就可以得到残差图。具体作法：1.计算残差：回归分析主对话框中选择save按钮，Residuals选项下的Unstandardized选项，按continue，在原数据文件中加入残差值

8、，2.画残差图。GraphScatter例:火灾损失与距离消防站的远近的回归分析,改进的残差,3.回归系数的区间估计,当我们用最小二乘法得到0，1的点估计后，在实际应用中往往还希望给出回归系数的估计精度，即给出其置信水平为1的置信区间。这个区间以1的概率包含参数0，1。置信区间的长度越短，说明估计值与0，1接近的程度越好，估计值就越精确。应用spss软件计算回归系数的区间估计：在线性回归对话框中，点击StatisticsConfidence interval，这样，在回归系数表中就增加了回归系数的区间估计。,4.预测与控制,建立回归模型的目的是为了应用，而预测和控制是回归模型最重要的应用。4.

9、1单值预测4.2区间预测因变量新值的区间预测因变量新值的平均值的区间估计 4.3控制问题,4.1单值预测,单值预测就是用单个值作为因变量的预测值。即当x0新值时，求出y0的预测值。单值预测只是一个大概值，我们除了想知道预测值外，还希望知道预测值得精度，这就要作区间估计。,4.2区间预测,给一个预测范围比只给出单个预测值更可信，这个问题也就是：,应用SPSS软件直接计算预测值,1.单值预测：在计算回归之前，把自变量新值x0输入样本数据中，在回归分析主对话框中点击Save按钮在save对话框中点击Predicted ValuesUnstandardized2.因变量新值的区间预测：在save对话框

10、中点击Predicted intervalsIndividul3.因变量新值平均值的区间预测在save对话框中点击Predicted intervalsmean,例：火灾损失与距离消防站远近，x03.5公里，预测火灾损失额。,5.应用SPSS软件进行一元线性回归分析,1、执行Analyze Regression Linear命令，打开对话框,（1）从源文件量清单中选择一个数值型变量移入 Dependent框中，选择一个变量作为自变量移入Independent 框中（2）选择回归模型的自变量的进入方式Enter 所有选择自变量全部进入方式（3）Save选项下选择Residuals 下的Unsta

11、ndardized选项（4）点击OK,6.一元线性回归模型建立小结,第一步，提出因变量与自变量第二步，搜集数据第三步，根据数据画散点图第四步，设定理论模型第五步，用SPSS软件计算，输出计算结果第六步，回归诊断，分析输出结果,实习1：,应用人均国民收入表中的数据建立人均消费金额与人均国民收入的回归模型。数据资料为：2006年SPSS教学资料/第八周教学资料/人均国民收入表.sav,实习2：,下表为四组数据，分别对此四组数据进行回归分析，并做显著性检验。实验数据文件为：2006年SPSS教学资料/第八周教学资料/回归显著性比较.sav,第三节多元线性回归,3.1多元线性回归模型3.2回归参数的

12、估计3.3回归方程的显著性检验3.4逐步回归3.5应用spss软件选项进行多元线性回归分析,3.1多元线性回归模型,一、多元线性回归模型的一般形式,二、多元线性回归方程的解释,以p2为例。在建立空调机销售量的预测模型时，用y来表示空调机的销售量，用x1表示空调机的价格，用x2表示消费者可用于支配的收入。则可以建立二元线性回归模型：,3.2 回归参数的估计,回归参数可以应用普通最小二乘估计。具体计算可以通过spss软件进行。例1 中国民航客运量的回归模型。为了研究我国民航客运量的变化趋势及其成因，我们以民航客运量作为因变量y，以国民收入、消费额、铁路客运量、民航航线里程、来华旅游入境人数为影响民

13、航客运量的主要因素。根据1994年统计摘要获得19781993年统计数据。建立中国民航客运量的回归模型，应用spss软件进行参数估计。,3.3 回归方程的显著性检验,一、F检验对多元线性回归方程的显著性检验就是要看自变量x1，x2，xp从整体上对随机变量y是否有明显的影响。为此，提出原假设：结论：1.如果原假设被接受，则表明随机变量y与自变量之间的关系由线性回归模型表示不合适。类似一元线性回归检验。2.如果拒绝原假设，则表明自变量全体对因变量y产生显著性影响。,二、回归系数的显著性检验,在多元线性回归中，回归方程显著并不意味着每个自变量对y的影响都显著，因此，我们总想从回归方程中剔除那些次要的

14、、可有可无的变量，重新建立更为简单的回归方程。所以就需要对每个自变量进行显著性检验。显然，如果某个自变量xj对y的作用不显著，那么在回归模型中，它的系数就取值为零。因此，检验变量xj是否显著，等价于检验假设：,回归系数的显著性检验应用t检验，具体检验方法同一元线性回归方程的t检验。例2，某地区1973-1990年水稻产量y和水稻播种面积x1，化肥施用量x2，生猪存栏数x3以及水稻扬花期降雨量x4的数据资料，用回归分析过程对该地区水稻产量建立回归模型，并对回归系数进行显著性检验。,回归方程检验的小结,1.F检验是检验自变量全体对因变量y是否产生显著影响2.t检验室检验每个自变量对因变量y是否产

15、生显著影响。3.当一个回归方程通过了F检验之后，并不能说明这个回归方程中所有的自变量都对因变量y有显著影响，因此，还要对回归系数进行检验。,三、回归系数的置信区间,应用spss软件计算回归系数区间估计。线性回归分析主菜单中，单击statistics按钮，打开statistics对话框。对话框Regression Coefficients栏用于选择输出与回归系数有关的统计量，选择其中的Confidence intervals 选项，就可以输出回归系数的95置信区间。例：运用“中国民航客运量.sav”数据文件中的数据计算回归系数的置信区间。,四、多元回归方程的拟合优度检验,多元回归方程的拟合优度同

16、样应用样本决定系数来检验。方法同一元线性回归方程。在输出结果model summary 中。,3.4逐步回归,回归自变量的选择是建立回归模型的一个极为重要的问题。应用spss软件中回归方法的选择可以进行自变量的选择。一、前进法（Forward）二、后退法（Backward）三、逐步回归法（Stepwise）,一、前进法,前进法的思想是变量由少到多，每次增加一个，直至没有可引入的变量为止。具体作法是首先将全部m个自变量，分别对因变量y建立m个一元线性回归方程，并分别计算这m个一元回归方程的m个回归系数的F检验值，选择其中最大的F值，如果此F值大于F的临界值，则首先将xj引入回归方程，为了方便，设

17、xj就是x1。接下来因变量y分别与（x1，x2），（x1，x3），（x1，xm）建立m1个二元线性回归方程，对这m1个回归方程中x2，x3，xm的回归系数进行F检验，选择其中最大的引入回归方程。依上述方法接着做下去。直至所有未被引入方程的自变量的F值均小于F的临界值。这时，得到的回归方程就是最终确定的方程。,例：运用水稻产量数据文件的资料对水稻产量y关于播种面积等4个变量作回归分析，用前进法做变量选择，取显著性水平,二、后退法,后退法与前进法相反，首先用全部m个变量建立一个回归方程，然后在这m个变量中选择一个最不重要的变量，将它从方程中剔除。具体作法是首先计算所有变量的回归系数的F检验值，取其

18、最小值Fj，如果Fj小于0.5水平下的F临界值，则把回归系数检验的F值最小者对应的自变量剔除。接下来对剩下的m1个自变量重新建立回归方程，进行回归系数的显著性检验，如上述方法剔除掉F检验值最小的自变量，依此下去，直至回归方程中所剩余的p个自变量的F检验值均大于临界值，没有可以剔除的自变量为止。这时得到的回归方程就是最终确定的方程。,例：例：运用水稻产量数据文件的资料对水稻产量y关于播种面积等4个变量作回归分析，用后退法做变量选择，取显著性水平,前进法与后退法的不足,前进法与后退法都有明显的不足。前进法可能存在的问题是，不能反映引进新的自变量后的变化情况。因为某个自变量开始可能是显著的，但当引入

19、其它自变量后它变得并不显著了，但是也没有机会将其剔除，即一旦引入，就是“终身制”的；后退法的不足之处是，一开始把全部自变量引入回归方程，这样计算量很大，如果有些自变量不太重要，一开始就不引入，就可以减少一些计算。另外，一旦某个自变量被剔除，“一棍子就把它打死了”，它再也没有机会重新进入回归方程了。,三、逐步回归,逐步回归的基本思想是有进有出。具体作法是：将变量一个一个引入，当每引入一个自变量后，对已经选入的变量要进行逐个检验，当原引入的变量由于后面变量的引入而变得不再显著时，要将其剔除。引入一个变量或从回归方程中剔除一个变量，为逐步回归的一步，每一步都要进行F检验，以确保每次引入新的变量之前回

20、归方程中只包含显著的变量。这个过程反复进行，直到既无显著的自变量选入回归方程，也无不显著自变量从回归方程中剔除为止。这样就避免了前进法和后退法各自的缺陷，保证了最后所得到的回归子集时最优回归子集。,例：运用水稻产量数据文件的资料对水稻产量y关于播种面积等4个变量作回归分析，用逐步回归做变量选择。注意：引入自变量和剔除自变量的显著性水平进小于剔除自变量的显著性水平否则可能产生“死循环”。,3.5应用spss软件选项进行多元线性回归分析,（1）线性回归过程：一元、多元逐步回归。回归系数估计值、协方差矩阵、复相关系数R、因变量的最佳预测值、方差分析表（2）对数据要求：自变量和因变量必须具有Sca

21、le测度的数值型变量标志或范畴变量（3）因变量的所有观测值：相互独立的等方差的正态总体，因变量和各变量之间应具有一定的线性关系,线性回归过程,1、执行Analyze Regression Linear命令，打开对话框,线性回归过程,（1）从源文件量清单中选择一个数值型变量移入 Dependent框中，选择一个或多个变量作为自变量移入Independent 框中（2）选择回归模型的自变量的进入方式Enter 所有选择自变量全部进入方式Stepwise 逐步回归方式Remove 移除法（根据设定条件剔除部分自变量）Backward 向后剔除法Forward 向前剔除法,线性回归过程,（3）参与

22、分析的观测量选择规则选择观测量的子集参与回归分析，将未选入这个子集的观测量排除在分析之外,线性回归过程,对话框中Define Selection RuleEqual to:等于Less than or equal:小于或等于Not equal to:不等于Less than:小于Greater than:大于Greater than or equal:大于或等于,线性回归过程,（4）从源文件量清单中选择一个指示变量加到 Case Labels2、选项按钮的功能设置（1）单击WLS按钮（权重变量）（2）单击Statistics 按钮，打开对话框,线性回归过程,对话框选择输出与回归系数有关的统计

23、量 Estimates:回归系数B的估计值、标准误差、标准化系数、t 分布 Confidence intervals:回归系数95%的置信区间 Covariance:协方差矩阵残值栏 Durbin-Watson:DW检验，残值的序列相关检验 Casewise diagnostics:观测量的诊断方式,线性回归过程,其他统计量 Model fit 模型拟合（拟合优度统计量）R squared change:交换、F交换及其显著性 Descriptives:回归中的各变量的描述统计量 Part and partial correlation：相关系数与偏相关系数 Collinearity and

24、 diagnostics：多重共线性诊断,线性回归过程,（3）单击Plots按钮，打开Plots对话框选择散点图变量，散点图DEPENDENT：因变量ZPERD：标准化预测值ZRESID：标准化残值DRESID：剔除残值ADJPRED：经调整的预测值SRESID：学生化残值SDRESID：学生化剔除残值,线性回归过程,线性回归过程,选择Standardized Residual Plots 栏选项,标准化残值图 Histogram Residual:Normal probability plot:对话框Produce all partial选项，输出每一个自变量对于自变量残差的散点图,线性回归

25、过程,3、单击Save按钮，打开对话框,线性回归过程,(1)Predicated Value:预测栏Unstandardized:未标准化的预测值Standardized:标准化的预测值Adjusted:经调整后的预测值S.E of mean prediction value:平均预测值的标准误差(2)Distances：距离栏Mahalanobis:马氏距离Cooks:库克距离Leverage Value:杠杆值,线性回归过程,(3)Prediction Intervals 预测区间栏 Mean:均值预测区间的上下限Individual:因变量的单个观测量预测区间的上下限Confidence

26、:置信概率(4)Residuals:残值栏(5)Influence Statistics：统计影响栏DFBeta(s)Beta:特定观测值所引起的预测值的变化Standardized DFBeta:标准化DFBeta值DfFit:拟合值之差Standardized DfFit:标准化的DfFitCovariance ratio:协方差比率,线性回归过程,4、单击Options按钮，打开对话框,线性回归过程,（1）Stepping Method Criteria:逐步回归标准栏Use probability:使用F概率作为决策变量进入Use F value:使用F统计量值(2)Include c

27、onstant in equation:常数项(3)Missing Value:缺损值处理栏Exclude cases listwise:全部变量的有效观测值Exclude cases pairwise:成对地剔除Replace with mean:用变量的均值代替缺损值5、单击OK，提交系统运行,实习：1,验证有些回归方程通过拟和优度检验单还是通不过F检验，这就是样本容量个数n太小，而自变量又较多造成R2的虚假现象。例：在研究建筑业降低生产成本y对流动资金X1，固定资金x2，优良品率x3，竣工面积x4，劳动生产率x5，施工产值x6的关系时，利用“建筑业.sav”数据文件中的数据建立回归方程，并对回归方程的显著性进行检验。,通过F检验单不能保证所有的回归系数都对因变量y有显著影响。,

展开阅读全文