《全国各地区流动人口影响因素研究.doc》由会员分享,可在线阅读,更多相关《全国各地区流动人口影响因素研究.doc(23页珍藏版)》请在三一办公上搜索。
1、全国各地区流动人口影响因素研究 基于因子分析和多元线性回归模型实证分析 广东外语外贸大学 陈金兰、林哓冰、夏丽华目 录摘 要- 1 -1.引言- 2 -2.研究现状及存在的问题- 2 -3.基本思路及创新- 3 -4.模型构建前的准备- 3 -4.1模型假设- 3 -4.2数据来源- 3 -4.3指标的选择- 3 -4.3.1反映经济状况的指标- 3 -4.3.2反映地区居民生活的指标- 4 -4.3.3反映公共服务的指标- 4 -4.4变量的预处理- 4 -5.模型的建立- 5 -5.1因子分析模型- 5 -5.1.1模型的选定- 5 -5.1.2因子分析的数学模型- 5 -5.1.3因子分
2、析- 6 -5.2聚类分析模型- 10 -5.3关联度分析- 13 -5.4多元回归模型- 15 -5.4.1模型设定- 15 -5.4.2参数估计- 15 -5.4.3计量经济检验- 15 -5.4.4模型改进- 16 -6.结论与建议- 18 -7.模型的不足与改进- 19 -参考文献- 19 -附录- 20 -摘 要:我国的流动人口一直处于增长趋势,到2009年,全国流动人口上升至2.11亿人。政府高度重视流动人口工作,并出台了一系列政策措施。本文运用因子分析、聚类分析等方法构建了流动人口影响因素的多元回归模型,对我国31个省市流动人口的影响因素进行了实证研究。研究结果表明:地区的综合发
3、展水平是人口流动的驱动因素,东部沿海城市是人口最为青睐的流向城市。关键词:流动人口 因子分析 聚类分析 关联度分析 多元回归模型1.引言在中国,流动人口是在户籍制度条件下的一个概念,目前尚无明确、统一的定义。一般是这样认为:流动人口是指离开户籍所在地的县、市或者直辖区,以工作、生活为目的的异地居住的成年育龄人员。随着工业化,城镇化的快速发展,中国进入了人口流动的活跃时期,数据显示,我国正经历人类史上最大规模的人口流动。1982年至2009年,中国流动人口数量由657万上升至2.11亿人【1】。 人口流动具有重大的意义。人口流动能够为人口流入地区提供大量的劳动力,促进地区制造业,服务业等行业的发
4、展,总体上来说,人口流动能够为国家的经济腾飞提供丰富的劳动力,为城市化、现代化顺利发展奠定了基础,调节劳动力的地区分配。但是大量的人口流动相应地引起一些问题:据统计,2009年中国流动人口平均年龄为27.3岁,流动人口中78.7%为农业户口,以青壮年为主。大部分流动人口的文化程度比较低。而大量的流动人口流入地区,势必引起人口流入地区的交通,教育,环境等问题,在制度还不完善的情况下,流动人口的医疗,保险等社会保障严重缺乏。即使近年来国家出台一系列加强流动人口服务管理的重大决策,但大规模的人口流动会给地方政府的管理带来严峻的挑战。如果能够建立关于流动人口与地区发展状况的模型,利用模型来研究流动人口
5、与地区发展的关系,并初步预测流动人口,将对国家对流动人口的有序引导,地区对流动人口的管理有重大的意义。2.研究现状及存在问题现阶段关于流动人口的文献可分为两大方面,一方面是关于流动人口现状的分析报告,另一方面是关于流动人口预测的模型。流动人口预测的模型是人口预测的一大难题,目前还没有一种可以用于不同地区的基本办法。西方关于人口流动预测模型比较完善的是托达罗模型,但是由于模型只表明了决定迁移的因素和关系,并没有表达出被解释变量与各因素之间明确的函数关系,所以没有得到广泛应用2。在国内,有学者曾经利用地区流动人口占常住人口的比例来建立流动人口预测模型,但是由于常住人口也是经常变动,数据获取难度大,
6、也没有得到推广。很多学者在流动人口预测方面做了大量的研究,但是,可以发现存在一个问题。大多数文献都有提到,人口流动受到许多因素的影响和制约,多因素法是最理想的办法,若能建立流动人口与各社会因素之间的一种线性或非线性模型,便能在充分考虑各种影响因素的基础上预测流动人口规模的变化,但是难度很大。纳入模型的影响因素的选择和影响因素数据的获取等各个方面的困难,使该方面的研究停滞不前。3.基本思路及创新通过收集资料,确定流动人口的主要因素,即指标,对所选择的指标进行因子分析。接着,利用因子分析提取的主要因子与流动人口进行关联度分析,计算其关联度,若关联度高,则用流动人口对主要因子进行回归分析,得到各个地
7、区的发展状况与流动人口之间关系的模型。在模型建立过程中,利用聚类辅助分析流动人口的地域差异。指标的选取原则为:尽可能全面,简洁,可获性,科学性,系统性。本文的创新之处在于,在研究人口流动与多因素之间的关系的时候,采用因子分析,聚类等方法对数据处理后建立线性或者非线性模型。本着大胆假设,小心求证的精神,建立人口预测模型,定量分析流动人口。4.模型构建前的准备4.1模型假设(1)流动人口的定义:由于流动人口至今都没有一个统一的统计口径,所以无法找到直接反映我国流动人口的数据。本文将户口在外地,住在本地区半年以上的人员(包括户口待定的人员)作为流动人口。(2)假定各个地区在短期内,发展状况稳定。所以
8、可选取2009年的数据来反映短期内地区的发展状况。4.2数据来源本文的流动人口数据是根据2009年全国各地区分性别、户口登记状况的人口推算而得的。推算方法是将住本乡、镇、街道,户口在外地半年以上人口加上住本乡、镇、户口待定人口,再除以0.873的抽样比。所得2009年全国各地区流动人口数见附录。4.3指标的选择4.3.1反映经济状况的指标地区间的经济状况差异会引起流动人口,由最近几年关于流动人口的新闻报道中可以看出,地区发展越好,该地区的流动人口越多。本文选取地区GDP以反映地区的该地区的经济表现,选取地区的社会消费品零售总额以反映该地区购买能力的实现,选取地区的第一产业生产总值,第二产业生产
9、总值,和第三产业生产总值分别占国民生产总值的比重以反映该地区的经济结构。4.3.2反映地区居民生活的指标地区的居民生活状况也是人口流动的成因之一,人们都是向往美好的生活的。本文选取城镇居民人均年可支配收入和农村居民人均年纯收入以反映城乡居民间的收入差异。选取CPI和商品零售价格总指数来反映地区的消费水平。选取城镇人口比重来反映该地区目前的城镇化水平。该地区的流动人口的就业程度可以反映地区对流动人口的容纳情况,可是由于流动人口各个方面的数据难以统计,所以文章选取逆向指标城镇登记失业率,来反映该地区的就业情况。4.3.3反映公共服务的指标根据中国流动人口发展报告中对当前流动人口生存发展的基本状况分
10、析中可以得知,我国流动人口家庭的平均规模为2.3人,67.4%为夫妻/子女一起居住。而流动人口的子女中,70.2%为流动儿童,29.8%为留守儿童。因此大胆推断,流动人口的子女就学等问题也是流动人口的影响因素之一,所以选取地区的教育财政支出来反映该地区的教育事业发展程度。综合各个方面的考虑,选取的指标有:GDP、社会消费品零售总额、第一产业生产总值,第二产业生产总值,和第三产业生产总值分别占国民生产总值的比重、城镇居民人均年可支配收入、农村居民人均年纯收入、CPI、商品零售价格指数、城镇人口占全国人口的比重、城镇登记失业率、教育财政支出。4.4变量的预处理对各个指标进行无量钢化处理,即数据标准
11、化,消除单位的影响。通过对数据的预分析,发现第一产业总值所占比重和第二产业所占比重对流动人口的影响较小。根据中国流动人口发展报告,三大产业是流动人口就业的主要领域:制造业、批发零售业和社会服务业吸纳了近七成流动人口就业,第三产业从业比重超过第一、第二产业之和。所以,从指标中删除第一产业所占比重和第二产业所占比重。经过预处理,确定本文分析的变量为标准化处理后的流动人口、GDP、社会消费品零售总额、第三产业生产总值比重、城镇居民人均年可支配收入、农村居民人均年纯收入、CPI、商品零售价格指数、城镇人口比重、城镇登记失业率、教育财政支出。5.模型的建立5.1因子分析模型5.1.1模型的选定一般而言,
12、在四维或者更多维度的空间进行数据分析和处理是一件很困难的事。但如果能够把维度降下来,在低维空间中对数据进行解释比在高维空间就容易得多。而且在大多数情况下,许多变量之间存在一定的相关关系,这就为用较少的综合性指标来描述和反映原有变量中所包含的信息提供了可能。因此对本文选取的影响全国各地区流动人口的10个变量进行降维处理,形成少数独立的、不相关的综合指标来进行数据解释是很有必要的。这样一方面减弱了变量之间的多重共线性,另一方面也在一定程度上减少了数据分析和采集的工作量。因子分析过程实际上就是降维处理的过程,是一种用少数几个因子来描述许多指标或因素之间的联系和反映原有资料的大部分信息的多元统计分析方
13、法。因子分析是主成分分析的推广和发展,它既能客观计算出一个可供评价的综合得分,又克服了主成分分析无法直接得到分化的指标载荷,不便于选取指标的缺点。同时,因子分析模型的整个处理过程基本是客观的,结果可以进行统计检验。通过以上分析,本文选取因子分析模型来对10个变量进行降维处理,建立流动人口的统计指标体系。5.1.2因子分析的数学模型本文在建立流动人口指标体系过程中采取的因子分析的数学模型如下: 公式1其中,是原有的个指标,称为的公共因子或潜因子,即前面所说的综合指标;称为因子载荷,是第个变量在第个公共因子上的负荷;称为的特殊因子。5.1.3因子分析(1)确定待分析的原有指标是否适合进行因子分析本
14、文用于检验指标是否适合于作因子分析的方法是KMO检验和Bartlett球形检验。当KMO0.5,Bartlett球形检验的相伴概率值小于0.05时,适合作因子分析。运用统计软件SPSS进行的KMO and Bartlett检验结果如表1。表1 KMO and Bartlett检验KMO and Bartletts TestKaiser-Meyer-Olkin Measure of Sampling Adequacy.651Bartletts Test of SphericityApprox. Chi-Square420.001df45Sig.000由以上结果可以看出,KMO的值为0.651,大
15、于0.5,而Bartlett检验的值为420.001,相应概率值近似为0.000,在5%的显著性水平下拒绝原假设,认为原有变量间存在关联性。因此原有指标适合作因子分析。(2)因子提取,确定描述数据所需要的因子数首先对数据进行一致化和标准化处理,其中城镇登记失业率是逆指标,所以需要取倒数,进行正向化处理。接着建立指标间的相关系数阵并求出其特征值和特征向量,同时画出特征值的碎石图,具体结果如下:表2 解释方差总和Total Variance ExplainedComponentInitial EigenvaluesExtraction Sums of Squared LoadingsRotatio
16、n Sums of Squared LoadingsTotal% of VarianceCumulative %Total% of VarianceCumulative %Total% of VarianceCumulative %15.18451.84051.8405.18451.84051.8403.61736.17536.17522.27522.74874.5882.27522.74874.5883.20732.07368.24831.27412.73887.3251.27412.73887.3251.90819.07787.3254.7327.32594.6505.2642.63597
17、.2856.1571.56998.8547.058.57699.4308.034.34199.7719.017.17399.94410.006.056100.000表2显示:第1个因子的特征值为5.184,大约占去方差的51.840%,基于过程内定取特征值大于1的原则,因子分析过程提取了第1、2、3个因子即F1、F2、F3,这3个因子共占去方差的87.325%,因此提取3个公因子是完全合理的。并且被放弃的其他7个因子解释的方差占不到20%,更加能够说明前3个因子提供了原始数据的足够信息。图1 因子碎石图从因子碎石图也明显看出,前3个因子的特征值都大于1,从第4个因子开始特征值比较低,都小于1,
18、可以认为前3个因子能概括绝大部分信息。因此保留3个因子,将一个十维的问题降至三维,这样既减少了指标的数目,又尽可能地保证了整个指标系统的完整。(3)因子旋转,集中于变换因子使之更好解释要建立指标的因子模型,关键是要根据指标间的相关系数矩阵估计因子载荷阵。本文采取主成分法对因子载荷阵进行估计,同时为了知道每个公因子的意义,以便进行较好的解释和命名,再采用最大方差法进行因子旋转,得表3。表3 旋转后的因子载荷阵Component123教育财政支出.090.949-.180第三产业比重.854-.263-.135城镇人口比重.851.206-.113GDP.157.967-.153社会消费品零售总额
19、.181.954-.175CPI-.234-.261.901商品零售价格指数-.189-.149.946城市居民人均年可支配收入.860.369-.184农村居民人均年纯收入.884.341-.111城镇登记失业率.698.077-.191由上表可看出,旋转后的因子系数很明显地两极分化,有了更鲜明的实际意义。F1中系数绝对值大的主要有:第三产业比重、城镇人口比重、城镇居民人均年可支配收入、农村居民人均年纯收入、城镇登记失业率,这5个指标变量主要是用来反映各地区的城市化发展的;F2中系数绝对值大的主要有:教育财政支出、GDP、社会消费品零售总额,这3个指标变量主要用来反映各地区的经济发展、教育事
20、业的投入、居民物质文化生活水平等综合发展状况;而F3中系数绝对值大的主要有:CPI、商品零售价格指数,这2个因子主要反映了各地区的价格情况。基于以上的分析,对3个公因子进行了命名,如表4:表4 公共因子命名表公共因子变量累计贡献率城市化发展因子第三产业比重87.325%城镇人口比重城市居民人均年可支配收入农村居民人均年纯收入城镇登记失业率经济社会发展因子教育财政支出GDP社会消费品零售总额价格因子CPI商品零售价格指数(4)因子得分,计算每一个样本的因子得分由于公共因子能反映原始指标的相关关系,为便于描述研究对象的特征,需要用公共因子代表原始变量,即用指标的观测值来计算各个因子得分,其数学模型
21、为: j=1,m 公式2其中,为标准化后的数据。由SPSS估计出的因子得分系数如下:表5 因子得分系数矩阵Component Score Coefficient MatrixComponent123教育财政支出-.067.330.037第三产业比重.293-.185-.002城镇人口比重.261-.001.085GDP-.041.337.068社会消费品零售总额-.035.326.055CPI.078.056.544商品零售价格指数.092.103.599城市居民人均年可支配收入.241.050.063农村居民人均年纯收入.262.049.112城镇登记失业率.205-.051-.012从表中
22、可看出,第三产业比重、城镇人口比重、城市居民人均年可支配收入、农村居民人均年纯收入、城镇登记失业率与第1个因子呈正相关关系,教育财政支出、GDP、社会消费品零售总额则与第2个因子呈正相关关系,同样CPI、商品零售价格指数与第3个因子也呈正相关关系。因此可以把原来的10个指标综合为3个因子,即城市化发展因子、经济社会发展因子、价格因子,这样后面进行的回归方程就简化得多了。根据以上系数和公式2即可得到对应的F1、F2、F3三个函数,同时根据各个因子的方差贡献率计算因子的综合得分: 公式3下表是各地区的因子得分:表6 因子得分地区城市化发展因子F1排名经济社会发展因子F2排名价格因子F3排名综合评分
23、F排名北京3.853901-0.7321525-0.69505251.182天津1.300343-0.5957124-0.10880170.308河北-0.63789280.651157-0.2314020-0.0813山西内蒙古-0.4134118-0.3543019-0.2102518-0.3523-0.1172611-0.22650150.1759814-0.0915辽宁0.1095270.4718380.6880870.377吉林-0.1583812-0.36641200.2039813-0.1616黑龙江-0.2607615-0.25651160.0513016-0.1918上海2.
24、6526620.2029790.9342451.381江苏0.3038862.2249130.39611121.033浙江0.9495741.207594-0.21529190.795安徽-0.6321526-0.0720412-0.4662224-0.3926福建0.084388-0.1541914-1.3062927-0.3122江西-0.4660518-0.3384219-0.3453518-0.3923山东-0.30460162.2709420.6900660.864河南-0.92062311.1277450.06072150.0512湖北-0.45875220.1737510-0.3
25、567622-0.2019湖南-0.42487190.1149411-0.4253623-0.2321广东0.3563252.456481-1.59994280.706广西-0.7458630-0.4640621-1.7342330-0.8630海南0.016939-1.3554530-0.7552626-0.6628重庆-0.4470320-0.7522926-1.7520531-0.8429四川-0.63735270.7090861.0450930.229贵州-0.7311029-1.0727529-1.6742028-1.0631云南-0.5614325-0.30284170.63049
26、9-0.2120西藏-0.0760210-1.46837310.5999310-0.4427陕西-0.4543921-0.14441130.672558-0.0914甘肃-0.3484617-0.54001231.8354620.0611青海-0.1624413-0.80016272.4843210.1810宁夏-0.1744914-1.13091290.4728511-0.3824新疆-0.4942124-0.48389220.935304-0.18175.2聚类分析模型根据因子分析的结果,可初步看出各个因子对流动人口的影响。但是逐个地区去分析很耗费人力物力,是不科学的。较好的做法是选取几个
27、指标对31个地区进行分类,然后根据分类结果对各地区的流动人口进行综合评价,就易于得出科学的分析。为了了解各地区具体的流动人口情况,并进一步证实所选取的10个指标对不同流动人口的巨大影响,同时为后面进行的回归方程提供可行性依据,本文根据因子分析提取的3个公因子对各地区进行层次聚类分析,具体结果如下:图2 聚类分析的树状图综合以上分析的结果,把地区分成3类,列表如下:表7 地区分类表类别地区流动人口数(人)类别地区流动人口数(人)1北京79358533四川5182131上海5674685辽宁31615122广东27810997河南2026346浙江8902635河北4431844山东4171821
28、新疆1008018江苏9317297陕西23230243青海506300云南2269187甘肃599084黑龙江3726231福建7017182吉林1623139贵州2400916内蒙古3000000重庆2402062江西2568156广西2065292山西2609393天津1485682安徽3066438海南719359湖南2138603宁夏565865湖北2981672西藏10309由表7可看出,不同类别地区的流动人口有明显的差异。首先第一类地区是北京和上海,这两个地区的综合评分分别排名第1和第2,但它们的流动人口数却没有第二类的地区大。主要是因为北京和上海的城市发展水平因子得分远高于其它
29、城市,这是吸引流动人口的决定性因素,主要体现在其高收入水平和城市化水平,但是这两个城市的价格的波动也很大,表现在物价水平和消费水平的高涨,这就制约了人口向这两个城市的流动。另外,这两个城市对流动人口的管理较为严格,其城市承载能力和准入门槛使流动人口在绝对数上低于第二类地区的大多数城市。第二类地区的平均流动人口数是最高的,尤其是广东省,流动人口比其他省市多了几乎两千万,第六次人口普查数据显示广东流动人口占据全国的1/3,已成为流动人口第一大省。虽然第二类 城市的收入水平低于北京和上海,但是其经济的快速发展提供了大量就业机会,教育和物质文化水平在不断提高(主要体现在教育财政支出和社会消费品零售总额
30、这两个指标的优越性),而且这些城市价格波动的也不大,这就吸引了人口的大规模流入。从其各个因子的排名和综合得分评价便可看出原因。第三类地区的各个因子相对处于劣势,特别是在经济发展以及就业与收入水平这些方面的吸引力明显低于属于东部沿海地区的城市。因此流动人口数也是不及其他两类地区的高。由此,通过聚类分析再次证明了选取的指标对各地区的流动人口是有着很大影响的。5.3关联度分析前面的因子分析和聚类分析已经证明了所选取的10个指标变量对各地区的流动人口有着很大的影响,可以进行多元回归建模。为了更客观地说明用流动人口和各个公因子建立多元回归方程的可行性和合理性,我们进行了序列的关联度分析。关联度分析是分析
31、系统中各因素关联程度的方法,用于检验因素之间的关系是否密切,以便找到主要矛盾,发现主要特征、主要关系。在计算关联度之前,需要先计算关联系数。关联系数定义为: 公式4其中:(1) 是第k个点与的绝对误差。(2) 是两级最小差。其中,是第一级最小差,表示在序列上找各点与的最小差;是第二级最小差,表示在各序列找出最小差的基础上寻找所有序列中的最小差。(3) 是第二级最大差,其含义与最小差相似。(4) 称为分辨率,01,一般取=0.5。在算出(k)序列与(k)序列的关联系数后,计算各关联系数的平均值: 公式5这个平均值r称为(k)序列与(k)序列的关联度。关联度分析的一般步骤有:第一步,先初始化,即将
32、该序列的所有数据分别除以第一个数据;第二步,求绝对差序列;第三步,求关联系数;第四步,求关联度。根据以上步骤,对各地区的流动人口(标准化后的数据)与综合因子得分进行关联度分析的结果如下:表8 关联度分析结果地区初始化的流动人口初始化的综合得分绝对差关联系数贵州1101广西0.875380.8113210.0640590.973371重庆0.8604210.7924530.0679680.971792海南西藏0.8520680.6226420.2294260.9107630.8218460.4150940.4067520.852安徽0.7493290.3679250.3814050.859931
33、江西0.6293030.3679250.2613780.899584宁夏0.5947660.3584910.2362750.908344山西0.493470.3301890.1632810.934814福建0.4836740.2924530.1912210.924502湖南0.465260.2169810.2482790.904134云南0.4324440.1981130.2343310.909029湖北0.4189280.1886790.2302490.910472黑龙江0.3993490.1792450.2201040.914078新疆0.3990580.1698110.2292470.9
34、10827吉林0.3573330.1509430.2063890.918998内蒙古0.3469680.0849060.2620620.899347陕西0.253430.0849060.1685240.932861河北0.2488360.0754720.1733640.931066河南0.232143-0.047170.2793130.893428甘肃0.208249-0.05660.2648530.898384青海0.066366-0.169810.2361780.908378四川-0.0456-0.207550.1619490.935311天津-0.11093-0.283020.17209
35、20.931537辽宁-0.29943-0.349060.0496240.979247广东-0.42319-0.660380.2371850.908023浙江-0.7605-0.745280.0152210.993542山东-0.99132-0.811320.1799970.928617江苏-1.23423-0.97170.2625330.899185北京-1.33841-1.113210.2252050.912261上海-5.98502-1.301894.6831290.333333关联系数平均值0.902811596流动人口与综合因子的关联度高达0.9028,可见它们之间的关联程度很高,即
36、流动与3个公共因子的关系很密切,这也进一步证明了选取的各个指标变量对各地区的流动人口影响很大。因此可以用3个公因子对流动人口进行多元回归建模。5.4多元回归模型5.4.1模型设定 本文采用多元线性回归模型,以标准化后的流动人口为因变量y,以因子分析得到的三个因子F1,F2,F3作为自变量,建立如下线性回归方程(其中是随机误差): 公式65.4.2 参数估计运用SPSS软件对该方程进行参数估计,结果如下:表9 多元回归分析结果ModelUnstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta1(Constan
37、t)4.150E-17.112.0001.000REGR factor score 1 for analysis 1.296.114.2962.596.015REGR factor score 2 for analysis 1.664.114.6645.813.000REGR factor score 3 for analysis 1-.346.114-.346-3.030.005由上表可知,除了常数项t检验通不过检验外,三个因子的系数均通过t检验,可见以上三个因子都与流动人口有显著性关系。5.4.3计量经济检验(1)异方差检验由于因子分析可以有效消除变量间的多重共线性,而选取的数据是截面数据
38、,不是时间序列,因此该模型不需要进行多重共线性和序列相关性检验。采用截面数据做样本进行回归分析时,由于不同样本点上解释变量以外的因素的差异很大,所以往往存在异方差性。模型一旦出现异方差性,参数的最小二乘估计不再是最小方差无偏估计,即不再是有效估计,会使回归系数显著性检验失效。异方差分析可以通过绘制残差散点图(如图3所示)和等级相关分析两种方式实现。图3:残差散点图由图3可知,随着标准化预测值的变化,残差点在0线周围随机分布的现象并不明显,反而有递减的趋势,这说明异方差的现象可能存在。下面通过计算残差与预测值的Spearman等级相关系数来判断异方差是否确实存在,结果如表10所示:表10:Spe
39、armam等级相关系数Standardized Predicted ValueStandardized ResidualSpearmans rhoStandardized Predicted ValueCorrelation Coefficient1.000-.599*Sig. (2-tailed).000N3131Standardized ResidualCorrelation Coefficient-.599*1.000Sig. (2-tailed).000.N3131由上表可知,等级相关分析中检验统计量的P值小于0.05,拒绝原假设,认为标准化预测变量与残差之间存在显著的相关关系,出现了
40、异方差现象。5.4.4模型改进模型被证明存在异方差性,则需要发展新的方法估计模型,最常用的方法是加权最小二乘法,其基本思想是对较小的残差平方ei2赋予较大的权数,对较大的ei2赋予较小的权数,使之成为一个新的不存在异方差性的模型,然后采用OLS法估计其参数。一般地,所使用的权重为1/|ei|。SPSS进行加权最小二乘法的参数估计结果如下表所示(常数的t检验通不过,因此剔除常数项),可见各个因子的系数均通t检验,P值均小于0.05:表11 参数估计ModelUnstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBe
41、ta1REGR factor score 1 for analysis 1.256.040.4356.422.000REGR factor score 2 for analysis 1.571.050.97211.419.000REGR factor score 3 for analysis 1-.237.053-.381-4.457.000在此,对改进的回归模型进行总体的显著性检验(F检验)及拟合优度检验,由结果(如表12,13所示)可见:可决系数R2为0.874,修正后的可绝系数为0.861,说明模型拟合得较好。另一方面,F值为64.996,P值远小于0.05,高度显著,说明模型估计的整体
42、效果较佳。表12 模型分析ModelRR SquareAdjusted R SquareStd. Error of the EstimateDurbin-Watson1.935.874.861.584221051.886表13 方差分析ModelSum of SquaresdfMean SquareFSig.1Regression66.552322.18464.996.000aResidual9.55728.341Total76.109b31根据表11的参数估计结果,可得回归方程为:由该模型可看出各省流动人口的数量与城市化发展以及社会经济发展这两个因子成正比例关系,而与价格因子成反比例关系,可见模型通过了经济意义的检验,系数的符号也符合经济理论。其中,社会经济发展因子对流动人口的影响最大,在其它标准化因子得分不变的情况下,社会经济