02一元线性回归模型.docx

上传人:李司机 文档编号:7166258 上传时间:2024-06-18 格式:DOCX 页数:19 大小:177.70KB
返回 下载 相关 举报
02一元线性回归模型.docx_第1页
第1页 / 共19页
02一元线性回归模型.docx_第2页
第2页 / 共19页
02一元线性回归模型.docx_第3页
第3页 / 共19页
02一元线性回归模型.docx_第4页
第4页 / 共19页
02一元线性回归模型.docx_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《02一元线性回归模型.docx》由会员分享,可在线阅读,更多相关《02一元线性回归模型.docx(19页珍藏版)》请在三一办公上搜索。

1、一元线性回来模型1.一元线性回来模型有一元线性回来模型(统计模型)如下,yl=fii+xl+U1上式表示变量M和为之间的真实关系。其中M称被说明变量(因变量),汨称说明变量(自变量),出称随机误差项,图称常数项,加称回来系数(通常未知)。上模型可以分为两部分。(1)回来函数部分,E=向+用必(2)随机部分,Ui图2.1真实的回来直线这种模型可以给予各种实际意义,收入与支出的关系;如脉搏与血压的关系;商品价格与供应量的关系;文件容量与保存时间的关系;林区木材采伐量与木材剩余物的关系;身高与体重的关系等。以收入与支出的关系为例。假设固定对一个家庭进行视察,随着收入水平的不同,与支出呈线性函数关系。

2、但事实上数据来自各个家庭,来自各个不同收入水平,使其他条件不变成为不行能,所以由数据得到的散点图不在一条直线上(不呈函数关系),而是散在直线四周,听从统计关系。随机误差项,中可能包括家庭人口数不同,消费习惯不同,不同地域的消费指数不同,不同家庭的外来收入不同等因素。所以在经济问题上“限制其他因素不变”是不行能的。回来模型的随机误差项中一般包括如下几项内容,(1)非重要说明变量的省略,(2)人的随机行为,(3)数学模型形式欠妥,(4)归并误差(粮食的归并)(5)测量误差等。回来模型存在两个特点。(1)建立在某些假定条件不变前提卜抽象出来的回来函数不能百分之百地再现所探讨的经济过程。(2)也正是由

3、于这些假定与抽象,才使我们能够透过困难的经济现象,深刻相识到该经济过程的本质。通常线性回来函数E(M)=向+因为是视察不到的,利用样本得到的只是对E(y,)=A)+4的的估计,即对向和向的估计。在对回来函数进行估计之前应当对随机误差项场做出如下假定。(1),是一个随机变量,,的取值听从概率分布,E(%)=0。(3) D(m,)=Eut-E(U1)2=E(Mr)2=Cr2。称出具有同方差性。(4) %为正态分布(依据中心极限定理)。以上四个假定可作如下表达。%N(0,2)o(5) Cov(mi,Uj)=E(ui-E(Ui)(M7-E(wz)=E(wf,uj)=0,(Jj)。含义是不同观测值所对应

4、的随机项相互独立。称为出的非自相关性。(6) H是非随机的。(7) Cov(w,Xi)=E(m,-E(wr)(Xi-E(Xf)=Ewf(xi-E(xl)=Ew1X1.ME(M)=E(wfH)=0.如与Xi相互独立。否则,分不清是谁对M的贡献.(8)对于多元线性回来模型,说明变量之间不能完全相关或高度相关(非多重共线性)。在假定(1),(2)成立条件下有E(M)=E(y%+用为+%)=为+xt2.最小二乘估计(O1.S)对于所探讨的经济问题,通常真实的回来直线是观测不到的。收集样本的目的就是要对这条真实的回来直线做出估计。怎样估计这条直线呢?明显综合起来看,这条直线处于样本数据的中心位置最合理。

5、怎样用数学语言描述“处于样本数据的中心位置”?设估计的直线用yl=o+A为表示。其中必称M的拟合值(fittedvalue),瓦和A分别是为和用的估计量。观测值到这条直线的纵向距离用力表示,称为残差。yt=yt+ul=o+fixt+ut称为估计的模型。假定样本容量为兀(1)用“残差和最小”确定直线位置是一个途径。但很快发觉计算“残差和”存在相互抵消的问题。(2)用“残差肯定值和最小”确定直线位置也是一个途径。但肯定值的计算比较麻烦。(3)最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较便利外,得到的估计量还具有优良特性。(这种方法对异样值特别敏感)设残差平方和用Q表

6、示,TQ=i=(j-)2=(yz-3j2,=l/=1/=I则通过。最小确定这条直线,即确定瓦和总的估计值。以瓦和自为变量,把。看作是瓦和自的函数,这是一个求极值的问题。求。对瓦和总的偏导数并令其为零,得正规方程,C单=2它(%-瓦-/内)(-1)=0(1)IBO1=1,Z(Z-工汽TT因为ZH(H-9)=0,Yx(Xl-X)=0,分别在f=lr=lTZfa-H)得,f=l,Z(%-工)%-工(巧-)Z(M-元)(),,-9)ZA-元)2下面用矩阵形式推导aTTBoT+B(Za)=/=I/=IYaTATTI瓦Z巧+自(Z巧2)=Z巧乃MU(7)(8)式的分子和分母上减之元(%-力和J=I(9)(

7、10)ft2xJlJ-J-(;)2.-xt_Za;j1.J1.jvl这种形式在单位根检验的理论分析中特别有用。3.最小二乘估计量瓦和A的特性(1)线性特性这里指Bo和A分别是M的线性函数。0_Z(Z-)(M-冽Z(巧-I)H-H)Z(Z-I)H1 Z(-元)2Z(%-工)2Z(/一工)2令匕=J。,代入上式得(%空)2A=Zktyt可见A是M的线性函数,是四的线性估计量。同理由也具有线性特性。(2)无偏性利用上式E(八)=E(Zktyt)=E即+%)=E(向Zkl+ktxl+ktut)=E夕IZG(XrM)+Zk%二夕I+E(Zklul)=(3)有效性氏,的O1.S估计量的方差比其他估计量的方

8、差小。Gauss-Marcov定理:若W满意E(w,)=0,D(%)=2,那么用O1.S法得到的估计量就具有最佳线性无偏性。估计量称最佳线性无偏估计量。最佳线性无偏估计特性保证估计值最大限度的集中在真值四周,估计值的置信区间最小。上面的评价是对小样本而言,若是对大样本而言还应探讨估计量的渐近无偏性,一样性和渐近有效性。先给出渐近分布的概念。渐近分布。用2N(,)0当Too,Var(x)O.为防止分布发生退化,可以用了乘VaK工)。当Tt8,TTVar(J)2o渐近方差。若上述随机变量序列有渐近期望,同时有新序列,E-x-E(t)2=ETx11-E(x71)2hETx-Ecm)FETxtn-E(

9、x7n)2)满意1.imET(x-E(x7)2=v则定义打的渐近方差为J1.imET(x-E(x)2=TT渐近无偏性。若力的渐近期望为由则/为用的渐近无偏估计量,即1.imE()=一样性若/满意(1)渐近无偏性,(2)1.imYar(3r)=。,则/具有一样性,力为夕的T一样估计量。渐近有效性。若/满意(1)具有一样性,(2)与其他估计量的方差相比,力的渐进方差较小,Var()Var(7-),则称/具有渐近有效性。O1.S估计量都能满意上述渐近特性估计量。留意:分清4个式子的关系。但满意渐近特性的估计量不见得是最佳线性无偏(1)真实的统计模型,(2)估计的统计模型,(3)真实的回来直线,(4)

10、估计的回来直线,yt=o+xt+UtM=瓦+Axt+utE(y,)=氏+xl=+t4. O1.S回来直线的性质(1)残差和等于零,wz=0由正规方程2Z3-瓦-自为)(-i)=o得(y-)=o,-y)=(,r-y)M,=yfw,-yW=m,=m,(+加)=-EG/+AEGrM=O5. M的分布和A的分布依据假定条件rN(O,2)E(Jr)=E(+Xl+Ul)=+Xl+E(ul)=i+XtoVar(V)=Var(%+xf+ut)=Var(向+即)+Var(w,)=2M是,的线性函数,所以MN(o+xh2)可以证明E(八)=Pi,Var(八)=一WdZ(XD总是y的线性函数(81=丘),所以6.

11、2的估计定义2=(Z禹2)/(7-2)其中2表示待估参数的个数。可以证明El/)=。?。拼是的无偏估计量。因为算是残差,所以拼又称作误差均方。可用来考察观测值对回来直线的离散程度。A的估计的方差是春(八)自二瓯、J3),加=W27. 拟合优度的测量拟合优度是指回来直线对观测值的拟合程度。明显若观测值离回来直线近,则拟合程度可以证明(yf-y)2=(yf-y)2+(yf-yl)2=(yl-y)2()2SST(总平方和)=SSR(回来平方和)+SSE(残差平方和)证明(j-J)2=(y-J)+(-j)2=(yr)2+(-y)2+2(yr-.yx)(,y,-y)其中Cy-)(,-j)=O7-)(-)

12、=O7,r)-yf)=Mr=o度量拟合优度的统计量是可决系数(确定系数)。R2=Zd1.=(回来平方和)/(总平方和)=SSR/SST(-y)2所以N的取值范围是0,l0对于一组数据,SSr是不变的,所以SSRt(I),SSEl(t)0SSRi旧指回来平方和(regressionsumofsquares)现指残差平方和(SUmofsquaredresiduals)SSE:旧指残差平方和(errorsumofsquares(sumofsquarederrors),现指回来平方和(explainedsumofsquares)8. 回来参数的显著性检验及其置信区间主要是检验是否为零。通常用样本计算的

13、A不等于零,但应检验这是否有统计显著性。H0:/71=0;H1:加工0在Ho成立条件下,1.K-P_寓_sWSg%-元)2若IfIEag,则0;若IrlVEa(T-2),则Oo还可以利用A估计川的置信区间。由于Pta(2)=-a)由大括号内不等式得用的置信区间A-S(八)g)四自+自)g)其中s,M是/出产_-32的算术根,而其中的3是拼的算术根。1.元)29. W的点预料及其区间预料下面以时间序列数据为例介绍预料问题。预料可分为事前预料和事后预料。两种预料都是在样本区间之外进行,如图所示。对于事后预料,被说明变量和说明变量的值在预料区间都是已知的。可以干脆用实际发生值评价模型的预料实力。对于

14、事前预料,说明变量是未发生的。(当模型中含有滞后变量时,说明变量则有可能是已知的。)当预料被说明变量时,则首先应当预料说明变量的值。对于说明变量的预料,通常采纳时间序列模型。TlT2八(目前)样本区间事后预料事前预料预料还分为有条件预料和无条件预料。对于无条件预料,预料式中全部说明变量的值都是已知的。所以事后预料应当属于无条件预料。当一个模型的说明变量完全由滞后变量组成时,事前预料也有可能是无条件预料。例如当预料TH期的M值时,E用的是T期值,是己知值。预料还分为静态预料和动态预料。(1) yr的点预料。依据估计的回来函数,得yF=A+XF(2)单个的区间预料的分布是N0+由Xf,2(liy-

15、)所以,W的区间预料是(7-2)1+1.孕K1VTX-)(3)E(W)的区间预料E(5)的分布是E(外)N(八)+孙,M()+pW?)二(aT)则E()的区间预料是yrg)S1V(再一幻10.案例:用回来模型预料木材剩余物(file:blc3)伊春林区位于黑龙江省东北部。全区有森林面积218.9732万公顷,木材蓄积量为2.324602亿11森林覆盖率为62.5%,是我国主要的木材工业基地之一。1999年伊春林区木材采伐量为532万n?。按此速度44年之后,1999年的蓄积量将被采伐一空。所以目前亟待调整木材采伐规划与方式,爱护森林生态环境。为缓解森林资源危机,并解决部分职工就业问题,除了做好

16、木材的深加工外,还要充分利用木材剩余物生产林业产品,如纸浆、纸袋、纸板等。因此预料林区的年木材剩余物是支配木材剩余物加工生产的一个关键环节。下面,利用一元线性Fl来模型预料林区每年的木材剩余物。明显引起木材剩余物改变的关键因素是年木材采伐量。给出伊春林区16个林业局1999年木材剩余物和年木材采伐量数据如表2.1。散点图见图2.14。观测点近似听从线性关系。建立一元线性回来模型如下:yt=fii+xf+U1表2.1年剩余物V和年木材采伐量M数据林也局名年木材剩余物v(万nr)年木材采伐量.M万年股36.12风青星营微东新红五友翠好峦驷溪丰岔岭乡山丰针美大南带朗桃双23,4921.9711.53

17、7.186.8018.4311.6927.9912.156.8017.209.505.5248.85.817.O17.327.5501.5.72350*il202.87532.(X)3025201510510203040506070图2.14年剩余物V和年木材采伐量H散点图DependentVariable:YMethod:1.eastSquaresDate:10/09/03Time:15:38Sample:116Includedobservations:16VariableCoefficientStd.Errort-StatisticProb.C-0.7629281.220966-0.624

18、8560.5421X0.4042800.03337712.112660.0000R-squared0.912890Meandependentvar12.67938AdjustedR-squared0.906668S.D.dependentvar6.665466S.E.ofregression.036319Akaikeinfocriterion4.376633Sumsquaredresid58.05231Schwarzcriterion4.4732071.oglikelihood-33.01306F-statistic146.7166Durbin-Watsonstat1.481946Prob(F

19、-Statistic)0.000000图2.15EVieWS输出结果EViews估计结果见图2.15。建立EViews数据文件的方法见附录1。在已建立Eviews数据文件的基础上,进行O1.S估计的操作步骤如下:打开工作文件,从主菜单上点击QUiCk键,选EStimateEqUation功能。在出现的对话框中输入ycX。点击Ok键。马上会得到如图2.15所示的结果。下面分析EVieWS输出结果。先看图2.15的最上部分。被说明变量是.估计方法是最小二乘法。本次估计用了16对样本观测值。输出格式的中间部分给出5歹IJ。第1列给出截距项(C)和说明变量为。第2列给出第1列相应项的回来参数估计值(瓦

20、和自)。第3列给出相应回来参数估计值的样本标准差(s(6o),s(自)。第4列给出相应/值。第5列给出,统计量取值大于用样本计算的,值(肯定值)的概率值。以,=12.11266为例,相应概率0.0000表示统计量,取值(肯定值)大于12.1的概率是一个比万分之一还小的数。换句话说,若给定检验水平为0.05,则临界值为bo5(i4)=2.151.12.12.15落在了HO的拒绝域,所以结论是用不为零。输出格式的最下部分给出了评价估计的回来函数的若干个统计量的值。依纵向依次,这些统计量依次是可决系数R2、调整的可决系数R2(第3章介绍)、回来函数的标准差(s.e.,即均方误差的算术根3)、残差平方

21、和、对数极大似然函数值(第2章介绍)、DW统计量的值、被说明变量的平均数(y)、被说明变量的标准差(S(M)、赤池(Akaike)信息准则(是一个选择变量最优滞后期的统计量)、施瓦茨(SChWatZ)准则(是一个选择变量最优滞后期的统计量)、产统计量(第3章介绍)的值以及尸统计量取值大于该值的概率。留意:S.D.和Se的区分。Se和SSE的关系。依据EVieWS输出结果(图2.15),写出O1.S估计式如下:yt=-0.7629+0.4043H(2.64)(-0.6)(12.1)R2=0.91,s.e.=2.04其中括号内数字是相应F统计量的值。Se是回来函数的标准误差,即3=J42i6-2)

22、.W是可决系数。R2=o91说明上式的拟合状况较好。y变差的91%由变量为说明。检验回来系数显著性的原假设和备择假设是(给定a=0.05)H0:/71=0;H1:i0obsActualFittedResidualResidualPlot126,130024.05992.07015,223.490018,76384.726211jx*321.970020,17881.79123411.530013.7507-2.22072*,57.180006.433250.74675166.800006.109830.69017,718.430021.4725-3.04246811,690012.4570-0

23、.7670296.800006.109830.69017109.6900010.2739-0.58391-117.990007.929090.06091-)1212,150013.5890-1.43900ho5()=2.15,所以检验结果是拒绝用=0,即认为年木材剩余物和年木材采伐量之间存在回来关系。上述模型的经济说明是,对于伊春林区每采伐111木材,将平均产生0.411的剩余物。图2.16给出相应的残差图。ACUIal表示M的实际观测值,FiHed表示y的拟合值力,Residual表示残差Gr。残差图中的两条虚线与中心线的距离表示残差的一个标准差,即se通过残差图可以看到,大部分残差值都落在

24、了正、负一个标准差之内.估计用的置信区间.由31-x=P(roo5(l4)=O.95S(八)得-A|z05(14)S(i)用的置信区间是-.05(14)S(八),+0.05($(2)0.4043-2.150.0334,0.4043+2.I50.0334(2.65)0.3325,0.4761以95%的置信度认为,回的真值范围应在0.3325,0.4761范围中。下面求H的点预料和平均木材剩余物产出量的置信区间预料。假设乌伊岭林业局2000年支配采伐木材20万n,求木材剩余物的点预料值。y2000=-0.7629+0.4043x20=-0.7629+0.404320=7.3231万m3(2.66)

25、刊M。)=2(7g)=0.45465(y2000)=J.4546=0.6742因为E(y2000)=E(o+/1x2000)=+/?iX2000=E(f20)y2000(y2000tf-;f(T-2)SG2000)则置信度为0.95的2000年平均木材剩余物E(gooo)的置信区间是y2000o.5(4)5(y2000)=7.32312.150.6742(2.67)=5.8736,8.7726从而得出预料结果,2000年若采伐木材20万n,产生木材剩余物的点估计值是7.3231万m平均木材剩余物产出量的置信区间估计是在5.8736,8.77261万n?之间。从而为恰当支配2000年木材剩余物的

26、加工生产供应依据。问题:估计结果中瓦没有显著性,去掉截距项&可以吗?答:依据实际意义可知,没有木材采伐量就没有木材剩余物,所以理论上凡是可以取零的。而有些问题就不行以。例如家庭消费和收入的关系。即使家庭收入为零,消费仍旧非零。一般来说,截距项的估计量没有显著性时,也不做剔出处理。本案例剔出截距项后的估计结果是力=0.3853为(28.3)R2-0.91,s.e.=2.0点预料值是y2000=0.3853x2000=0.385320=7.7060万m3附录1:怎样用EViews通过键盘输入数据建立新工作文件的方法是从EVieWS主菜单中单击FiIe键,选择New,Workfile。则打开一个数据

27、范围选择框(WOrkfneRange)如图1。须要做出3项选择。选择数据性质。数据性质分为:启始期(SlarIdate)终止期(Enddale)。3项选择完毕后,点击“0K”键。这时,会建立起一个尚未命名的工作文件(WOrkfiIe),且处于打开状态。当打开新工作文件或现有工作文件后,可以通过键盘输入数据和追加数据。详细操作如下:从EVieWS主菜单中点击QUiCk键,选择EmPtyGroUP功能。这时会打开一个空白表格数据窗口(GrOUP)如图3所示。每一个空格代表一个观测值位置。按列依次输入每一个变量(或序列)的观测值。键入每一个观测值后,可通过按回车键(Emel键)或方向指示键(J)进行

28、确认。按方向指示键(J)的好处是在确认了当前输入的观测值的同时,还把光标移到了下一个待输入位置。每一列数据上方的灰色空格是用于输入变量名的。给变量命名时,字符不得超过16个。留意:下列名字具有特别意义,给变量命名时,应避开运用。它们是:ABS,ACOS,AR,ASIN,C,CON,CNORM,COEF,COS,D,D1.OG,DNORM,E1.SE,ENDIF,EXP,1.OG,1.IT,1.PTi,1.PT2,MA,NA,NRND,PD1.,RESID,RND,SAR,SIN,SMA,SQR,THENo附录2:怎样用EVieWS预料。以案例1为例,给定r=20,求%二?EVieWS预料步骤如

29、下。(1)点击Procs键选Changeworkfilerange功能。在弹出的对话框的Enddata选择框处改为17。点击OK键。(2)双击工作文件的Sample:I17区域,在弹出的对话框的Samplerangepairs选择框处把16改为117o(3)双击工作文件窗口中的X序列,打开彳数据窗口。点击Edit+/-键,使X数据窗口处于可编辑状态。在I=17的X的观测值位置输入20。相当于给定产20。(4)打开估计式eq(H窗口,点击ForeCaSl键。在S.E.选择框处填入yfse,表示要V的预料值(用YF表示)也要M的预料标准差(用yfse表示)。点击OK键,工作文件窗口中已经出现一个y

30、f序列。双击yf序列,可以看到。Ji7=7.322668o11.相关理论相关分析是探讨变量间相互关系的最基本方法。从相关分析中引出的相关系数是回来分析的一个基本统计量。驾驭它有助于对经济问题和经济计量模型的分析与理解。11.1 相关的定义与分类定义:相关(correlation)指两个或两个以上变量间相互关系的程度或强度。分类:按强度分r完全相关:变量间存在函数关系。例,圆的周长,=211roI高度相关(强相关):变量间近似存在函数关系。例,我国家庭收入与支出的关系。I弱相关:变量间有关系但不明显。例,近年来我国耕种面积与产量。I零相关:变量间不存在任何关系。例,某班学生的学习成果与年龄。按变

31、量个数分r按形式分:线性相关,非线性相关简洁相关:指两个变量间相关VI按符号分:正相关,负相关,零相关复相关(多重相关和偏相关):指三个或三个以上变量间的相关。因非线性相关可以转化为线性相关处理,而复相关又可看作是简洁相关基础上的拓展,所以后面重点介绍简洁线性相关。11.2 简洁线性相关的度量用简洁线性相关系数,简称相关系数(COrrelationCOeffiCienI)度量两个变量间的线性相关强度,用p表示。p的随机变量表达式是Cov(xt,yl)yD(xr)yD(yl)P的统计表达式是_,Zz区“)(%)_(再-)(W)C1.*r_出)2J.Z.(yy)2J=(;-4厂JE=(J?其中7;

32、总体容量;即,如变量的观测值;xyy,变量观测值的均值。下面说明p为什么能对变量间的线性相关强度进行定量度量。因为p表达式的分子是协方差,Cov(m,V);分母是为和M的标准差之积。而乐和X的标准差不会为零,所以Cov(H,M)是否为零,就确定了P是否为零,即标记着变量为,M间是否存在线性相关关系。但CoV(即,M)有两个缺点:它是一个有量纲的量,取值简洁受测量单位的影响;取值范围宽,相关性越强,Cov,)力取值越大。为克服上述缺点,用为,M的标准差除CovN,),于是就得到相关系数p的统计表达式。它是一个无量纲量。相关系数p是对总体而言。当探讨某个问题时,所得数据常是一个样本。对样原来说,相

33、关系数常用r表示,即厂是总体相关系数p的估计值。,=P一Z1.?/)”驴_l-x)(7-j)J言Zia1.彳J1.(Xl)2J1.Ul)2其中7,样本容量;,m,变量的观测值;a夕,变量观测值的均值。11.3 相关系数的取值范围(1)当两个变量严格听从线性关系时,IPl=1。证:设直线斜率为k,y=a+ko则有(x,-x)(yl-y)_(xt-x)k(xt-x)p-/,=1-X)2(H-歹)2y(xl-X)2k2(x,-X)2(2)当两个变量不存在线性关系时,IPl=0。(3)上述是两种极端情形,所以相关系数的取值范围是-1,lo当Cov(3,m)0时,则夕0(正相关);当Cov(x,yf)。

34、时,则夕0(负相关);若COV(H,=0,则夕=0(零相关)。为什么图1为正相关?为什么图2为负相关?用。工)(乃-5)说明。例1:散点图与相关系数r=0.9911.4 线性相关系数的局限性(1)只适用于考察变量间的线性相关关系。也就是说当P=O时,只说明二变量间不存在线性相关关系,但不能保证不存在其它非线性相关关系。所以变量不相关与变量相互独立在概念上是不同的。(2)相关系数的计算是一个数学过程。它只说明二变量间的相关强度,但不能揭示这种相关性的缘由,不能揭示变量间关系的实质,即变量间是否真正存在内在联系,因果关系。所以在计算一的同时,还要强调对实际问题的分析与理解。(3) 一般说二变量相关

35、时,可能属于如下一种关系。单向因果关系。如施肥量与农作物产量;对金属的加热时间与温度值。双向因果关系。如工业生产与农业生产;商品供应量与商品价格。另有隐含因素影响二变量改变。如市场上计算机销量与电视机销量呈正相关。明显人均收入的增加是一个隐含因素。虚假相关。如年国民生产总值与刑事案件数呈正相关。明显二变量间不存在因果关系。应属虚假相关。中国和美国某个经济指标高度相关,明显这没有可比性,亳无意义。(file:correlationI)11.5 简洁相关系数的检验(1)干脆检验(查相关系数临界值表)H0:p=0;Hi:p0用为和V的样本计算相关系数r,以自由度/=T-2查临界值表。检验规则是,若r

36、%g)(临界值),则为和X相关;若r&T-2),则为和M相关;若I“%()=其中表示显著性水平,/表示自由度,%”)为临界值。11.6 偏相关系数以上介绍了简洁线性相关系数,但是当两个变量即,M同时受其它变量Z”,Z2,,影响时,有必要探讨当限制其它变量ZMZ2”.,不变时,该两个变量岛M之间的相关关系。称这种相关关系为偏相关关系。以3个变量必将为例(多于3个变量的情形与此相像。),假定限制Zr不变,测度mM偏相关关系的偏相关系数定义如下。PGg=限制Zl不变条件下的为,y的简洁相关系数。因为Z也是随机变量,一般不简洁得到限制力为一个常数条件下的厮和M的值。实际计算方法是,从即,中分别剔除Z,的影响,然后计算相关系数。步骤如下:(1)求即对马的回来估计式,Xt=BO+Zt+iil计算残差,Ul=Xt-Po2/工中不再含有Zr对方的影响。(2)求M对Z/的回来估计式,yt=

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号