《偏最小二乘回归分析—案例.doc》由会员分享,可在线阅读,更多相关《偏最小二乘回归分析—案例.doc(9页珍藏版)》请在三一办公上搜索。
1、案例 教育投入对经济影响问题的PLS建模与分析1 数据资料及相关概念为研究教育投入与产业发展之间存在着具体怎样的相关关系,特收集了如下数据资料.表1 辽宁省1984-2005年教育投入与经济产出数据资料年份L1L2L3L4KY1Y2Y31984122156125644195129657396180.4268.289.619855841749552232768959810245074.9328.1115.619866702058351741070401612338392.9357.8154.61987119329394549709680861124532109.5417.0192.6198819
2、2931552615839637753155617141.9492.5246.61989176332708598834593257194395141.9545.1316.91990167733768580075591654201077168.6540.8353.31991150033530571569660343229033180.8590.1429.21992124535208573509685996254712194.6741.9536.51993130733615572612630759305120260.81039.3710.819941273359236061486367863983
3、99319.01259.1883.81995142544072635387672482439517392.21390.01011.21996196251068611379576164496190474.11537.71145.91997231649591666386500252546883474.11743.91364.21998212647557724391555892562770531.51855.21459.11999242649964658165644042642559520.82001.51649.42000291049834587000722325760719503.42344.4
4、1821.22001297160271623975679852855043544.42440.62048.12002367472791709233622536991450590.22609.92258.220035027989087884735952781108785615.82898.92487.9200467261158897922285117571387080798.43061.62812.0200593421449848159054990691629956882.43953.33173.3注释 表中数据摘自辽宁统计年鉴2006.变量说明 衡量教育投入水平的具体指标集研究生教育程度(硕士
5、及博士)劳动力数(单位:人);高等教育程度(大学本科及专科)劳动力数(单位:人);中等教育程度(高中及中专)劳动力数(单位:人);初等以下教育程度(小学及文盲)劳动力数(单位:人);教育的财政投入(单位:万元). 经济产出的指标集第一产业(包括林业、牧业、渔业等)产出值(单位:亿元);第二产业(包括工业和建筑业)产出值(单位:亿元);第三产业(包括流通类的交通运输业、邮电通讯业、商业饮食业、物资供销和仓储业及金融、保险业,地质普查业,房地产、公用事业,居民服务业,旅游业,咨询信息服务业和各类技术服务业,等等)产出值(单位:亿元).2 多重相关性诊断 计算自变量与因变量之间的相关系数.load
6、jytrjjcc %装载原始数据 cr=corrcoef(jytrjjcc);%计算变量之间的相关系数 计算结果整理如下:表2 因变量与自变量之间的相关系数rL1L2L3L4KY1Y2Y3L11.00000.98470.8737-0.48470.94470.86430.89060.8895L21.00000.9117-0.49440.96950.90880.92500.9278L31.0000-0.61960.89440.89400.87760.8870L41.0000-0.4177-0.4436-0.3751-0.3803K1.00000.96350.98330.9871Y11.00000.
7、98270.9818Y21.00000.9961Y31.0000由表中可以看出:l 自变量之间的相关系数最高达0.9847,表明自变量之间存在严重的自相关性.注意,初等以下教育程度劳动力数与其它自变量之间呈负相关关系l 因变量与自变量之间的相关系数最高达0.9871,表明自变量系统与因变量系统之间存在较高的相关性.注意,研究生、高等、中等教育程度劳动力数以及财政投入与三大产业产出之间存在着明显的正相关关系,而初等以下教育程度劳动力数与三大产业产出之间存在着的较弱的负相关关系. 建立普通最小二乘回归方程原始数据标准化,得到自变量的标准化数据矩阵和因变量的标准化数据矩阵,再建立二者之间的多重(多因
8、变量)多元线性回归方程.E0=stand(jytrjjcc(:,1:5);%标准化自变量数据F0=stand(jytrjjcc(:,6:8);%标准化因变量数据MMLR=inv(E0*E0)*(E0*F0);%估计多重多元线性回归方程系数 根据上述计算结果,可得下列多重多元线性回归方程: ,.从这一组回归方程可以看出,三大产业产出值与研究生教育、高等教育竟然负相关,这与客观事实相违背,也与相关系数矩阵中得到的结论相悖.所以,在自变量之间、以及自变量与因变量之间存在复杂的相关关系时,普通最小二乘回归方法建立的模型不能准确的反映实际情况.3 建立偏最小二乘回归模型 提取所有可能的主成分clearl
9、oad jytrjjccX=jytrjjcc(:,1:5);Y=jytrjjcc(:,6:8); E0=stand(X);F0=stand(Y);A=rank(E0);W,C,T,U,P,R=plspcr(E0,F0); %提取所有可能的主成分 主成分解释能力分析l 复测定系数 RA=plsra(T,R,F0,A) RA = Columns 1 through 4 0.8727 0.9209 0.9739 0.9870 Column 5 0.9879 抽取不同个数的主成分时,对应的回归方程的复测定系数见表3.表3复测定系数的取值主成分累积12345复测定系数0.87270.92090.9739
10、0.98700.9879由表3可知,当抽取一个主成分时,回归方程的复测定系数已达到87.27.通常,系统信息的可解释变异达到总变异的85即可认为回归方程的精度已达到满意效果.因此,根据模型从简的原则,我们只需选取一个主成分建模.第一主成分为.l 主成分的信息解释能力Rdx,RdX,RdXt,Rdy,RdY,RdYt=plsrd(E0,F0,T,A) Rdx = Columns 1 through 4 0.9421 0.0092 0.0444 0.0017 0.9744 0.0110 0.0083 0.0006 0.9108 0.0054 0.0306 0.0530 0.3490 0.6425
11、0.0046 0.0040 0.9335 0.0433 0.0080 0.0150 Column 5 0.0025 0.0057 0.0003 0.0000 0.0001RdX = Columns 1 through 4 0.8220 0.1423 0.0192 0.0149 Column 5 0.0017RdXt = 1.0000Rdy = Columns 1 through 4 0.8573 0.0252 0.0670 0.0104 0.8650 0.0597 0.0415 0.0153 0.8728 0.0584 0.0493 0.0130 Column 5 0.0001 0.0018
12、0.0009RdY = Columns 1 through 4 0.8650 0.0478 0.0526 0.0129 Column 5 0.0009RdYt =0.9793 表4 主成分t1和t2对变量的解释能力RdL1L2L3L4KY1Y2Y3XYt10.94210.97440.91080.34900.93350.85730.86500.87280.82200.8650t20.00920.01100.00540.64250.04330.02520.05970.05840.14230.0478从表4中可以看出,主成分除综合解释了原自变量系统82.20的变异信息,对原自变量系统有非常好的代表性
13、.同时,综合解释了因变量系统86.50的信息,对因变量系统的贡献很大.而第二个主成分对原自(因)变量系统信息变异的解释能力较低.经计算当增加第二个主成分时,模型的精度没有明显的改善.因此,从主成分的信息解释能力的角度以及模型从简的原则,只选一个主成分建模是适宜的.l 第一主成分间的相关性cr =plsutcor(U,T) %绘制ui/t1图 cr = 1.0000 0.9342 0.9342 1.0000从图中可以看出,两个第一主成分间的相关性很强. 求PLS回归方程的系数 求标准化变量回归方程的系数SCOEFF=pls(1,5,W,P,R) SCOEFF = 0.2153 0.2163 0.
14、2172 0.2248 0.2258 0.2269 0.2164 0.2174 0.2184 -0.0976 -0.0980 -0.0985 0.2389 0.2399 0.2410 求原始变量回归方程的系数COEFF,INTERCEP=plsiscoeff(X,Y,SCOEFF) COEFF = 0.0242 0.1072 0.0966 0.0017 0.0074 0.0067 0.0006 0.0027 0.0024 -0.0003 -0.0015 -0.0014 0.0001 0.0006 0.0005INTERCEP =-17.9677 -233.0059 -388.8328 关于成分
15、的回归方程为,;关于的回归方程为,;原始因变量关于自变量的回归方程为,. 可见,所建的回归方程没有出现反符号现象,受中等以上教育的劳动力人数、财政投入与经济的产出都是呈正相关的,只有初等教育劳动力人数(包括文盲)呈负相关,这与相关系数符号完全一致. 回归方程中自变量对因变量的解释能力(变量投影重要性)VIP=plsvip(W,RdY,RdYt,1) VIP = Columns 1 through 4 0.9866 1.0303 0.9918 0.4472 Column 5 1.0946变量投影重要性指标是用来测度第j个自变量对因变量的解释能力的. 因此,从预测的角度,如果某个自变量在解释因变量
16、时起得作用很小,则可以考虑删去这个变量后重新建模.由于VIP4明显较小,故删除变量L4重新用偏最小二乘回归方法建模,得到的回归方程为,与未删除变量L4前的回归方程对比,发现方程的回归系数变化很小.深入的精度分析结果见表5.表5改进后模型应用效果比对分析RdxRdySSPRESS包含L4的模型0.82200.86508.50348.3149删除L4的模型0.94760.88936.97146.4205表5中,SS值表示的是回归方程对所有样本点的拟合误差平方和,PRESS值表示的是预测误差平方和,计算公式详见偏最小二乘回归方法及其应用(王惠文国防工业出版社,1999).由表5可知,删除变量L4后的
17、模型,无论是建模的主成分t1对自(因)变量的解释能力Rdx(Rdy),还是拟合与预测效果上都有很明显的提高.因此,基于VIP对自变量指标筛选后的偏最小二乘回归模型效果更佳.需要强调的是,删除L4的模型对分析教育投入与经济产出二者之间关系来说意义并不是很大,但若考虑对辽宁经济产出进行短期预测,采用该模型的预测精度会更高.4 由模型得到的信息. 从因变量与自变量之间的相关系数和变量投影重要性指标值可以看出,辽宁省的教育投入对经济发展有着深刻、全面的促进作用.对三大产业经济产出促进作用最大的就是教育的财政投入,然后依次是高等、中等、研究生、初等教育程度的劳动力人数.教育投入对三大产业经济产出的边际作
18、用结构上是相似的,财政投入对第三产业产出值的边际贡献最大. 由,国家的高校扩招政策对经济产生了积极的影响.据辽宁省教育厅日前的统计,辽宁省高等教育35.3的毛入学率表明,辽宁省已经率先进入大众化高等教育时代.表1中的数据表明,辽宁省高校招生人数的持续增长,特别是2001年以来的快速增长,与辽宁省的经济增长是适应的,反过来说大众化的高等教育对经济的增长直接促进作用开始显现. 由,初等教育程度劳动力人数对经济产出影响最小甚至是负面的.由于义务教育的普及和辽宁省较高的中等教育普及率,文盲和新增初等教育程度的劳动力人数逐渐减少,因此该项指标对经济产出的解释能力变小.初等教育程度劳动力人数与其它各项指标
19、的负相关性表明,中等以上教育程度劳动力人数增加的必然结果是初等教育程度劳动力人数的下降,而教育财政投入的增加是抑制初等教育程度劳动力人数的最重要因素,初等教育程度劳动力的就业对全社会经济的增长是一种负担. 由,我们认为研究生教育的规模应当适当扩大,经费投入应当增加和多样化.研究生教育程度劳动力人数对经济的影响重要性排名靠后,主要原因是研究生招生规模小、人数少,教育经费主要依赖财政投入.另外,研究生教育程度的劳动力人数对经济的影响可能要通过科技投入类指标间接的反映到经济产出上.这也表明教育投入对经济产出的影响是复杂的. 在至的基础上深入分析,我们认为教育投入的强度和投入渠道的多样化对经济产出是有着重要、广泛和深远的影响.高等和中等教育程度劳动力人数对经济产出影响的重要性排名靠前,而初等和研究生教育程度劳动力人数排名靠后,这与我国目前相应的教育经费筹措渠道的不同有关.目前,我国的高等和中等教育的经费除国家的财政性投入之外,社会与个人的投入力度较大,高、中等教育程度劳动力人数的增加实质上是相应教育经费投入的增加.但初等和研究生教育的经费渠道相对单一,相应教育阶段的经费总投入相对较低是其对经济产出的解释能力较低的重要原因. 在模型自身方面,从变量投影重要性的角度,剔除解释能力较小的自变量,能够有效的提高模型的预测效果.但这一点对具体问题需要进行谨慎分析.