回归分析之理解和实例ppt课件.ppt

资源描述

《回归分析之理解和实例ppt课件.ppt》由会员分享，可在线阅读，更多相关《回归分析之理解和实例ppt课件.ppt（37页珍藏版）》请在三一办公上搜索。

1、2022/12/25,1,回归分析,2022/12/25,2,回归分析,回归分析概述功能：回归分析是研究一个变量（即因变量）（或多个变量）对于一个或多个其他变量（即解释变量）的依存关系，并用数学模型加以模拟，目的在于根据已知的或在多次重复抽样中固定的解释变量之值，估计、预测因变量的总体平均值涵义：一般地，把在研究回归模型时所采用的估计、计算方法，检验、分析理论统称为回归分析。回归分析方法又称因素分析方法、经济计量模型方法。属于多元统计分析方法之一。,2022/12/25,3,回归分析,回归分析回归分析的研究思路和步骤根据研究问题的性质、要求建立回归模型。根据样本观测值对回归模型参数进

2、行估计，求得回归方程。对回归方程、参数估计值进行显著性检验。并从影响因变量的自变量中判断哪些显著，哪些不显著。利用回归方程进行预测。,2022/12/25,4,回归分析,回归分析包括：一元回归、多元回归以及线性回归和非线性回归：一元回归：Y（因变量）取值：y1 y2 y3 X（自变量）取值：x1 x2 x3 建立一元线性回归方程：Y=BX+C（方程中的B为回归系数，C为常数）或者是非线性回归方程：Y=f(X),2022/12/25,5,回归分析,回归分析多元回归：Y（因变量）取值:y1 y2 y3 X1（自变量1）取值:x11 x12 x13 X2（自变量2）取值:x21 x22 x2

3、3 Xn（自变量n）取值:xn1 xn2 xn3 建立多元线性回归方程：Y=B1X1+B2X2+ BnXn + B0（方程中的Bi为回归系数）或者是非线性回归方程：Y=f（X1 X2Xn）,在大多数的实际问题中，影响因变量的因素不是一个而是多个，我们称这类回问题为多元回归分析。可以建立因变量y与各自变量xj(j=1,2,3,n)之间的多元线性回归模型：其中：b0是回归常数；bk(k=1,2,3,n)是回归参数；e是随机误差。,2022/12/25,7,回归分析,线性回归分析执行菜单命令 AnalyzeRegression Linear 选择因变量到：“Dependent”因变量框内选择若

4、干个自变量移动到：“Independent(s)”自变量框内,2022/12/25,8,回归分析,线性回归分析回归方法 “Method”下拉菜单提供了五种回归方法供选择：强行介入法Enter 正向进入Forward 反向剔除Backward 逐步进入Stepwise 强行剔除Remove,2022/12/25,9,回归分析,回归分析自变量纳入回归方程的方式强行介入法Enter（一次性进入）这是一种不检验F和Tolerance，一次将全部自变量无条件地纳入回归方程。强行剔除Remove（一次性剔除）指定某些变量不能进入方程。这种方法通常同别的方法联合使用，而不能首先或单独使用，因为

5、第一次使用或单独使用将意味着没有哪个变量进入方程。,2022/12/25,10,回归分析,回归分析自变量纳入回归方程的方式逐步进入Stepwise 每次选择符合进入条件的自变量进入方程，进入后立即检验，不合格者剔除，直到全部合格自变量进入方程反向剔除Backward 先强行介入，再逐个剔除不合格变量，直到全合格正向进入Forward 每次选择符合进入条件的自变量进入方程，逐个选择，逐个进入，直到全部合格自变量进入方程,线性回归分析中的共线性检测,(一)共线性带来的主要问题高度的多重共线性会使回归系数的标准差随自变量相关性的增大而不断增大,以至使回归系数的置信区间不断增大,造成估计值精度

6、减低.回归方程检验显著但所有偏回归系数均检验不显著偏回归系数估计值大小或符号与常识不符定性分析对因变量肯定有显著影响的因素，在多元分析中检验不显著，不能纳入方程去除一个变量，偏回归系数估计值发生巨大变化,线性回归分析中的共线性检测,(二)共线性诊断自变量的容忍度(tolerance)和方差膨胀因子容忍度:Toli=1-Ri2. 其中: Ri2是自变量xi与方程中其他自变量间的复相关系数的平方.容忍度越大则与方程中其他自变量的共线性越低,应进入方程. (具有太小容忍度的变量不应进入方程,spss会给出警告)(据经验T0.1一般认为具有多重共线性)方差膨胀因子(VIF):容忍度的倒数SPSS在回归

7、方程建立过程中不断计算待进入方程自变量的容忍度,并显示目前的最小容忍度,多重共线性的对策,增大样本量（不太可能）多种自变量筛选方法结合（选择最优方程）人为去除次要变量（定性分析为较次要，或无需分析）主成分回归分析（提取因子作为影响因素）,多元回归应用实例,某地区病虫测报站用相关系数法选取了以下4个预报因子；x1为最多连续10天诱蛾量(头)；x2为4月上、中旬百束小谷草把累计落卵量(块)；x3为4月中旬降水量(毫米)，x4为4月中旬雨日(天)；预报粘虫幼虫发生量y（头/m2）。分级别数值列成表2-1。,分析预报量y：每平方米幼虫010头为1级，1120头为2级，2140头为3级，40头以上为4级

8、。预报因子：x1诱蛾量0300头为l级，301600头为2级，6011000头为3级，1000头以上为4级；x2卵量0150块为1级，15l300块为2级，301550块为3级，550块以上为4级；x3降水量010.0毫米为1级，10.113.2毫米为2级，13.317.0毫米为3级，17.0毫米以上为4级；x4雨日02天为1级，34天为2级，5天为3级，6天或6天以上为4级。,1）准备分析数据,在SPSS数据编辑窗口中，创建“年份”、“蛾量”、“卵量”、“降水量”、“雨日”和“幼虫密度”变量，并输入数据。再创建蛾量、卵量、降水量、雨日和幼虫密度的分级变量“x1”、“x2”、“x3”、“x4

9、”和“y”，它们对应的分级数值可以在SPSS数据编辑窗口中通过计算产生。,单击SPSS主菜单的“Analyze”下的“Regression”中“Linear”项，将打开线性回归过程窗口。,3) 设置分析变量设置因变量：用鼠标选中左边变量列表中的“幼虫密度y”变量，然后点击“Dependent”栏左边的向右拉按钮，该变量就移到“Dependent”因变量显示栏里。设置自变量：将左边变量列表中的“蛾量x1”、“卵量x2”、“降水量x3”、“雨日x4”变量，选移到“Independent(S)”自变量显示栏里。设置控制变量: 本例子中不使用控制变量，所以不选择任何变量。选择标签变量: 选择“年份

10、”为标签变量。选择加权变量: 本例子没有加权变量，因此不作任何设置。,4）回归方式本例子中的4个预报因子变量是经过相关系数法选取出来的，在回归分析时不做筛选。因此在“Method”框中选中“Enter”选项，建立全回归模型。,5）设置输出统计量单击“Statistics”按钮，将打开如图对话框。该对话框用于设置相关参数。其中各项的意义分别为：,“Regression Coefficients”回归系数选项：,“Estimates”输出回归系数和相关统计量。“Confidence interval”回归系数的95%置信区间。“Covariance matrix”回归系数的方差-协方差矩阵。本例子

11、选择“Estimates”输出回归系数和相关统计量。,“Residuals”残差选项：,“Durbin-Watson”Durbin-Watson检验。“Casewise diagnostic”输出满足选择条件的观测量的相关信息。选择该项，下面两项处于可选状态：“Outliers outside standard deviations”选择标准化残差的绝对值大于输入值的观测量；“All cases”选择所有观测量。本例子都不选。, 其它输入选项,“Model fit”输出相关系数、相关系数平方、调整系数、估计标准误、ANOVA表。“R squared change”输出由于加入和剔除变量而引起的

12、复相关系数平方的变化。“Descriptives”输出变量矩阵、标准差和相关系数单侧显著性水平矩阵。“Part and partial correlation”相关系数和偏相关系数。“Collinearity diagnostics”显示单个变量和共线性分析的公差。本例子选择“Model fit”项。,6）绘图选项,在主对话框单击“Plots”按钮，将打开如图所示的对话框窗口。该对话框用于设置要绘制的图形的参数。图中的“X”和“Y”框用于选择X轴和Y轴相应的变量。,左上框中各项的意义分别为：“DEPENDNT”因变量。 “ZPRED”标准化预测值。 “ZRESID”标准化残差。 “DRESID

13、”删除残差。 “ADJPRED”调节预测值。 “SRESID”学生氏化残差。 “SDRESID”学生氏化删除残差。 “Standardized Residual Plots”设置各变量的标准化残差图形输出。其中共包含两个选项：“Histogram”用直方图显示标准化残差。“Normal probability plots”比较标准化残差与正态残差的分布示意图。“Produce all partial plot”偏残差图。对每一个自变量生成其残差对因变量残差的散点图。本例子不作绘图，不选择。,7) 保存分析数据的选项,在主对话框里单击“Save”按钮，将打开如图所示的对话框。,“Predicte

14、d Values”预测值栏选项：Unstandardized 非标准化预测值。就会在当前数据文件中新添加一个以字符“PRE_”开头命名的变量，存放根据回归模型拟合的预测值。Standardized 标准化预测值。Adjusted 调整后预测值。S.E. of mean predictions 预测值的标准误。本例选中“Unstandardized”非标准化预测值。 “Distances”距离栏选项：Mahalanobis: 距离。Cooks”: Cook距离。Leverage values: 杠杆值。,“Prediction Intervals”预测区间选项：Mean: 区间的中心位置。Ind

15、ividual: 观测量上限和下限的预测区间。在当前数据文件中新添加一个以字符“LICI_”开头命名的变量，存放预测区间下限值；以字符“UICI_”开头命名的变量，存放预测区间上限值。Confidence Interval：置信度。本例不选。“Save to New File”保存为新文件：选中“Coefficient statistics”项将回归系数保存到指定的文件中。本例不选。 “Export model information to XML file” 导出统计过程中的回归模型信息到指定文件。本例不选。,“Residuals” 保存残差选项：“Unstandardized”非标准化残差

16、。“Standardized”标准化残差。“Studentized”学生氏化残差。“Deleted”删除残差。“Studentized deleted”学生氏化删除残差。本例不选。“Influence Statistics” 统计量的影响。“DfBeta(s)”删除一个特定的观测值所引起的回归系数的变化。“Standardized DfBeta(s)”标准化的DfBeta值。“DiFit” 删除一个特定的观测值所引起的预测值的变化。“Standardized DiFit”标准化的DiFit值。“Covariance ratio”删除一个观测值后的协方差矩隈的行列式和带有全部观测值的协方差矩阵的

17、行列式的比率。本例子不保存任何分析变量，不选择。,8）其它选项在主对话框里单击“Options”按钮，将打开如图所示的对话框。,“Stepping Method Criteria”,框用于进行逐步回归时内部数值的设定。其中各项为：“Use probability of F”如果一个变量的F值的概率小于所设置的进入值（Entry），那么这个变量将被选入回归方程中；当变量的F值的概率大于设置的剔除值（Removal），则该变量将从回归方程中被剔除。由此可见，设置“Use probability of F”时，应使进入值小于剔除值。“Ues F value”如果一个变量的F值大于所设置的进入值（En

18、try），那么这个变量将被选入回归方程中；当变量的F值小于设置的剔除值（Removal），则该变量将从回归方程中被剔除。同时，设置“Use F value”时，应使进入值大于剔除值。本例是全回归不设置。,“Include constant in equation”选择此项表示在回归方程中有常数项。本例选中“Include constant in equation”选项在回归方程中保留常数项。“Missing Values”框用于设置对缺失值的处理方法。其中各项为：“Exclude cases listwise”剔除所有含有缺失值的观测值。“Exchude cases pairwise”仅剔除参与统计分析计算的变量中含有缺失值的观测量。“Replace with mean”用变量的均值取代缺失值。本例选中“Exclude cases listwise”。,9）提交执行在主对话框里单击“OK”，提交执行，结果将显示在输出窗口中。10) 结果分析,

展开阅读全文