基于SAS人口预期寿命影响因素分析报告.docx

资源描述

《基于SAS人口预期寿命影响因素分析报告.docx》由会员分享，可在线阅读，更多相关《基于SAS人口预期寿命影响因素分析报告.docx（25页珍藏版）》请在三一办公上搜索。

1、本科课程设计论文统计软件课程设计设计题目：基于SAS人口预期寿命影响因素分析班级：统计1105 姓名：吴惠指导教师：缪宁 2014年 6 月14 日摘要：人均预期寿命是衡量一个社会的经济发展水平及医疗卫生服务水平的指标，与性别地区有着密切的联系。为了清楚地反应全国各个地区的人口平均预期寿命，为了国家领导人做出经济决策，为了为国家医疗卫生建设提供可靠依据，有关人员根据人口普查数据计算了各地区的人均预期寿命。现收集了全国31个地区的人均预期寿命，运用SAS分析的方法，对选取的数据进行分析，比较不同地区人均预期寿命的差异，并研究地区等因素对其影响。结果分析表明像上海、浙江、广东

2、这样的发展地区以及海南，云南这样生活环境优美的水乡之地人均预期寿命就要比贵州等偏远地区的长。关键词：人口平均预期寿命地区地理位置目录摘要1前言3一、研究背景4二、模型设定6(一)数据性质的选择6(二)影响因素的分析61、经济因素62、医疗卫生服务水平6三、资料的收集7四、资料分析8（一）描述统计量8（二）绘制散点图9（三）回归分析111、逐步回归法112、残差图12（四）多重共线性131、多重共线性132、多重比较14（五）对选择的因素与各省人均预期寿命进行相关性分析151、简单相关系数的计算15（六）各省人均寿命与各因素的系统聚类分析171、系统聚类法172、谱系图193、正态性检验

3、20（七）各省人均寿命与各因素的主成分分析211、简单统计量212、样本相关矩阵223、样本相关矩阵特征值224、特征向量22五、结论及建议23(一)结论23(二)政策建议23参考文献：24前言人口平均预期寿命（Life expectancy）是指假若当前的分年龄死亡率保持不变，同一时期出生的人预期能继续生存的平均年数。它以当前分年龄死亡率为基础计算，但实际上，死亡率是不断变化的，因此，平均预期寿命是一个假定的指标。这个指标与性别、年龄、种族有着紧密的联系，因此常常需要分别计算。平均预期寿命是我们最常用的预期寿命指标，它表明了新出生人口平均预期可存活的年数，是度量人口健康状况的一个重要的指标。

4、寿命的长短受两方面的制约。一方面，社会经济条件、卫生医疗水平限制着人们的寿命，所以不同的社会，不同的时期，寿命的长短有着很大的差别；另一方面，由于体质、遗传因素、生活条件等个人差异，也使每个人的寿命长短相差悬殊。因此，虽然难以预测具体某个人的寿命有多长，但可以通过科学的方法计算并告知在一定的死亡水平下，预期每个人出生时平均可存活的年数。这就是人口平均预期寿命。它是运用科学的计算方法计算出来的。在过去的10年里，虽然各省的人均预期寿命都显著提高，但各省之间仍存在一定的差别。人体健康的决定性因素主要包括：医药、卫生、教育、常识和理性行为、经济状况和收入水平、环境因素。为了对中国各省人均寿命的影响

5、因素进行研究，分别从经济、医疗、自然地理位置、环境质量方面选取了3个因素的数据进行研究分析，得出了一些可靠地结论。一、研究背景：据一些专家估计，50年代初，我国人口的预期寿命在48岁左右。新中国成立以来，中国在加速工业化和现代化进程中，迅速完成了第一次卫生革命，即基本上控制并消除严重的传染病和寄生虫病。改革开放以来，中国有效地控制和防治各类传染病，其发病率和病死率降至历史低点，人民的卫生健康环境有了更加明显的改善，人口预期寿命提高迅速。据计算,我国人口男性预期寿命在19821983年为63.49岁，女性为66.77岁，1990年为66.35岁，女性为69.43岁，19992000年男性为68.

6、82岁，女性为71.95岁，说明，随着我国社会经济的健康快速发展，人民生活水平和生活质量不断得到提高，与此同时医疗卫生事业也不断取得新的进展，从而有效地降低了死亡率，保障了健康水平的提高【1】。第五次全国人口普查显示，2000年中国人口平均预期寿命已达71.4岁，10年间，提高了2.85岁。中国人口的平均预期寿命比世界平均水平高5岁，比发展中国家和地区高7岁【2】。从地区来看，东部11个省、直辖市的人口平均预期寿命均接近或超过73岁，普遍高于中部和西部地区；西部12个省的人口平均预期寿命较低，除广西、重庆、四川、陕西和宁夏外都低于70岁；中部地区8个省的人口平均预期寿命基本在7073岁。2

7、0世纪90年代以后，许多学者利用一国跨地区截面资料研究了收入不平等和地区之间的健康差异的关系，其结论并不完全一致。大部分学者认为收入不平等对人口健康状况产生了负面影响，较高的收入不平等与较高的婴儿死亡率、较高的低出生体重率以及较低的预期寿命联系在一起。如(Kap1an，1996；Kennedy and Kawachi，1996；Wilkinson，Kawachi and Kennedy，1998；lynch，1998等)。他们认为收入不平等可能反映了社会凝聚力(social cohesion)或者社会资本的恶化，而个人的健康状况不仅仅对于绝对收入水平的升降有反映，对于一些相对性的概念，诸如相对

8、剥夺、相对收入或者相对社会地位的变动也会有所反映。马磊，余振华在中国平均预期寿命的影响因素分析中指出影响人类预期寿命的因素主要有遗传和体质因素，生活水平，医疗卫生服务水平，人口受教育水平四大方面。为了更准确地说明各因素对预期寿命的影响，他们将人均GDP (取自然对数)、婴儿死亡率和文盲率看成原因变量，人均预期寿命当做结果变量，试图建立多元线性回归模型。通过模型结果，他们得出，经济发展水平，医疗卫生服务水平，教育水平，都对对预期寿命的显著作用。他们根据模型的定量分析给出了一些政策建议。强调经济增长，同时还要努力提高教育和医疗卫生服务水平。乔轶娟在我国人均寿命影响因素计量分析中指出影响人均寿命的

9、因素有以下几个方面：一是从经济状况来看，人均GDP、年人均消费性支出。二是医疗卫生方面，选取人均拥有的卫生机构数、财政上用于卫生经费的年人均额。三是教育水平因素，选取每百人中有高中及高中以上教育水平的人数作为指标。四是人口内部的影响因素，考虑到各地普遍存在女性平均预期寿命大于男性，将男女性别比作为一项指标(以女性人数为基数)；另将出生率作为一项指标是考虑到越是偏远山区和少数民族地区出生率可能越高，寿命反而可能越低。五是自然环境因素，将各省市自治区划分为东部、西部，以东、西之分作为影响因素。六是其他影响因素，选取城镇人口比重，平均每个家庭户的人口数。搜集数据，进行相关性分析，建立人均预期寿命模型

10、。得出结论，影响人均寿命的不只是一两个变量，而是一系列变量。文章所选取的1 0个指标从相关性判断，都影响人均预期寿命，但由于解释变量之间的相关性，采用所有的因素会影响判断，因此在建立模型中只能就重避轻，将一些影响不太显著的变量剔除，留下影响最显著的两个变量：人均GDP和出生率。所以，提高我国人均期望寿命的方法就是对影响寿命的因素施加影响，使人均寿命变量正向变化。二、模型设定研究中国人均预期寿命的影响因素需要考虑以下几个方面： (一)数据性质的选择由于时间序列数据在反映人均预期寿命上不显著，相比而言，各地区的截面数据更具有代表性和显著性，所以，本文选择了全国31个省市（除港澳台地区）的截面数

11、据为分析对象。 (二)影响因素的分析根据实践经验，有众多因素会影响人均预期寿命。1、经济因素 GDP指标是一个国家或地区经济发展状况的重要标志，也是影响一个国家或地区人口预期寿命的基础因素。随着经济的发展，人均GDP呈现明显增长趋势，随着人们收入水平的提高，人们对食物等方面的支出会随之增加，这自然对提高预期寿命有重要作用。同时，随着人均GDP的增加，人们生活水平提高，会减少对质量差的低档食物的需求，会增加对质量合格的优质食品的消费，这对改善人们的健康状况、提高预期寿命有很大影响。 2、医疗卫生服务水平医疗卫生事业的发展能够改善人口的健康状况，使人民免遭疾病的侵袭。自二战以来，人口平

12、均预期寿命迅速提高的重要原因之一就是一些国家进口了廉价而先进的医疗技术及药品。解放后，中国卫生事业迅速发展，成功地消灭或基本消灭了一些解放前严重威胁人民身体健康的烈性传染病，如霍乱、鼠疫、天花等，使全国人民的健康状况越来越好，特别是在广大农村，医疗卫生服务的进步有效地提高了农村人口预期寿命。因此，本文将“人均GDP”、“卫生机构数”、“单位面积污染比”三个因素作为模型的解释变量。三、资料的收集本文获取了31个省市的资料，如下表：变数地区人口预期寿命（岁）Y人均GDP（万元）X1卫生机构数（个）X2单位面积污染比X3北京76.170234973418440天津4.916339542

13、3814822.0339河北72.5424583809634978.78788山西71.6520779399174070.55215内蒙古69.873728722677387.642276辽宁73.3434193347296205.26316吉林73.125906185431580.51282黑龙江72.372159321825884.662577上海78.1477205446089086.6873江苏73.9143907305718484.11215浙江74.744895295496140.56604安徽71.8516656247992720.68966福建72.55331062661322

14、62.4江西68.9515921340051275.86207山东73.9235893638857659.74843河南71.5421073757224273.56322湖北71.0822050327902909.74359湖南70.6619355552001629.68037广东73.2739978443144291.75258广西71.2916576323551872.76423海南72.921876046611225.9887重庆71.7320219164972234.19204四川71.21728972914940.748031贵州65.969214247072193.22034云南6

15、5.491368722365668.856448西藏64.371529449591.18110236陕西70.0720497339281111.68224甘肃67.471288225299597.014925青海66.0318346595980.9333333宁夏70.171964241492088.15029新疆67.411911914244116.407186数据源：（1）中国统计年鉴2009年（2）国家统计局网站四、资料分析：（一）描述统计量data b;input district $ y x1-x3;cards;北京76.1 70234973418440天津4.916339542

16、3814822.0339河北72.5424583809634978.78788山西71.6520779399174070.55215内蒙古69.873728722677387.642276辽宁73.3434193347296205.26316吉林73.1 25906185431580.51282黑龙江72.372159321825884.662577上海78.1477205446089086.6873江苏73.9143907305718484.11215浙江74.744895295496140.56604安徽71.8516656247992720.68966福建72.5533106266132

17、262.4江西68.9515921340051275.86207山东73.9235893638857659.74843河南71.5421073757224273.56322湖北71.0822050327902909.74359湖南70.6619355552001629.68037广东73.2739978443144291.75258广西71.2916576323551872.76423海南72.921876046611225.9887重庆71.7320219164972234.19204四川71.21728972914940.748031贵州65.969214247072193.22034云南

18、65.491368722365668.856448西藏64.371529449591.18110236陕西70.0720497339281111.68224甘肃67.471288225299597.014925青海66.0318346595980.9333333宁夏70.171964241492088.15029新疆67.411911914244116.407186;proc means data=b maxdec=2 mean std max min range cv skewness; /*利用MEANS过程计算描述统计量*/var y x1-x3;run;图1由图1可知，各人均预期寿命的

19、样本均值为68.99，样本标准偏差为12.29，样本中人均预期寿命的最大值为78.14，最小值为4.91，斜度为-5.01。(二)绘制散点图proc gplot data =b;/*对数据集b绘制散点图*/plot y*x1;/*纵坐标为y,横坐标为x1绘图*/plot y*x2; /*纵坐标为y,横坐标为x2绘图*/plot y*x3; /*纵坐标为y,横坐标为x3绘图*/symbol color=red i=jion v=star ci=blue; /*绘图的颜色为红色，连直线，点符号为*,联机的颜色为蓝色*/run;图2 由图2可知，x1与y的线性关系，随x1的增加，y也在增加，所以认为

20、呈正相关关系。图3 由图3可知，x2与y的线性关系不太明显，随x2的增加，y趋于平稳。图4由图4可知，x3与y的线性关系，随x3的增加，y也在增加，所以认为呈正相关关系。（三）回归分析1、逐步回归法逐步回归的基本思想是：首先在待选的M个变量中选择一个对因变量影响最大的自变量，这可以通过因变量与每一自变量进行回归得到的F值来判断。若最大的F值在给定的显著性水平下是显著的，则该变量被选中，否则选元结束。 proc reg data=b; /*利用REG过程进行回归分析*/ model y=x1-x3 /selection=stepwise sls=0.05 sle=0.2 r; /*采用逐步筛选

21、法建立回归模型*/ run;图5由图5可知，变量X2被加入到模型中，说明三个自变量分别关于Y回归，其中由X2与Y回归得到的F统计量值最大,为1.96，对应的概率为0.1725，在0.05的显著性水平下没有通过检验。2、残差图proc reg data=b; /*利用REG过程进行回归分析*/ model y=x1 x2 x3; /*以y为因变量，以x1、x2和x3为自变量建立回归模型*/ plot student.*p.=*;/*以标准化的残差值为纵轴，因变量的预测值为横轴绘图*/run;图6（四）多重共线性1、多重共线性指在多元回归分析中自变量之间存在线性关系，用数学术语来表达就是系数矩

22、阵的秩P+1，即R（）=之后已经超过0.7，所以应当尤其认真考虑分为5、4、3、2类的可能。（3）PSF为伪F统计量，是模拟与方差分析中的F统计量，它衡量了k个分类时的聚集效果，F越大说明分类效果越好。因此NCL越大F一般是越大的，纵观所有的F统计量，并没有F统计量随着类个数减少反而增多的反常情况，但是在NCL=7时，其与其上的相邻F统计量差有16.2；NCL=5时，与NCL=4的相邻F统计量差有17.4，相比其他的相邻F统计量差值明显较大，应当引起注意，故应当考虑分类为4或5类的可能。（4）PST2为伪t方统计量，模拟方差分析中的t方统计量，用来衡量合并两个类的效果，如果t方较大，则说明

23、合并两个类的效果不好，应该取合并前的那个分类。观察商标，发现当NCL=4时t方最大，NCL=3时次大，NCL=5时第三大，其他的在NCL=6、9、时也比较大，故应当考虑分类为2、3、5类的可能。综合上述四个统计量的分析，我们暂时认为，分为5类可能是最佳选择。2、谱系图：proc tree horizontal; /*利用TREE过程，绘制横向聚类谱系图*/id district;run;图13由图13可知：结合由Cluster输出的聚类统计量分析，我们最终认为分成4类较为合适，最终分类结果如下：第一类：天津第二类：上海第三类：河北、河南、山东、四川、湖南、第四类：北京、内蒙、福建、辽宁、

24、广东、江苏、浙江、山西、吉林、黑龙江、宁夏、青海、甘肃、新疆安徽、江西、云南、重庆、西藏、贵州、海南、广西、湖北从聚类结果来看，类的划分还是体现出了一些地域的特征的。天津、上海分别单独为一类，处于东部发达地区，但医疗机构数太少。第三类为河北、河南、山东、四川、湖南，处于经济较发达地区，医疗机构数相对较多。第四类宁夏、内蒙等地经济较落后，医疗机构数相对较少。3、正态性检验所谓正态性检验是指检验各个水平下的总体是独立地服从于正态分布的，即对每一个水平观测资料是正态分布的随机样本。通过SAS分析的结果如下：data sample; /*建立数据集sample，以进行两样本的比较*/set b;

25、/*读入数据集b*/if district in (内蒙古广西重庆四川贵州云南西藏陕西甘肃青海宁夏新疆)then region=西部;else region=东部; /*通过IF语句定义变量region，用来区分东部和西部地区*/run;proc univariate data=sample normal; /*利用UNIVARIATE过程进行正态性检验*/ var y; /*指出要检验的变量是y*/ class region; /*指出分类变量为region，用来区分两个样本*/run;图14由图14可知，西部地区检验统计量的概率P值大于显著性水平0.05，说明接受原假

26、设，即服从正态分布。由上检验结果可以看出都通过了显著性检验，即满足方差分析的假设条件。图15由图15可知，东部地区检验统计量的概率P值小于显著性水平0.05，说明拒绝原假设，即不服从正态分布。(七)各省人均寿命与各因素的主成分分析proc princomp data =b out =prin;/*对数据集b进行主成分分析，输出新的数据集prin*/var y x1-x3;/*分析变量为y,x1,x2*/proc sort;/*对数据集进行排序*/by prin1;/*对prin1升序排列*/proc print;id district;/*识别输出观测的观测值district*/var pri

27、n1 prin2; /*输出数据列表prin1 prin2*/proc sort;by prin2; /*对prin2升序排列*/proc print;id district;var prin1 prin2; /*输出数据列表prin1 prin2*/run;1、简单统计量图16 由图16可知，给出了变量的简单统计量。图中可以看出X2医疗机构数高出其他变量，说明医疗卫生对人口平均预期寿命有很大影响，人均GDP影响较大。2、样本相关矩阵图17 由图17可知，各变量之间的相关性，y与x1成负相关，而y与x2和x3成正相关；x1与x2成负相关，与x3成正相关；x2与x1和x3成负相关。3、样本相

28、关矩阵特征值图18由图18可知，特征值，相邻两特征值之差，每个主成分的贡献率和前几个主成分的累计贡献率。可知前两个主成分的特征值大于1，前两个主成分的雷击贡献率达到75%以上。4、特征向量图19由图19可知，给出了相关系数的特征向量，由最大特征值所对应的特征向量我们可以知道各个主成分的表达式。Prin1=0.651621X1-0.378154X2+0.616913X3 Prin2=0.178764X1+0.491585X2+0.391777X3Prin3=0.271096X1+0.780607X2-0.015562X3Prin4=0.685522X1-0.077437X2-0.682413X3

29、五、结论及建议(一)结论 1、人均GDP对人均预期寿命存在显著影响，原因在很大程度上取决于政府的政策取向。 2、卫生机构数量对人均预期寿命存在影响影响。原因在于卫生机构数量越多，人民获得医疗能力会进一步增强，从而整体健康水平会有显著提高，相应地，人均预期寿命也会提高。 3、单位面积污染比对人均预期寿命的影响不显著，原因在单位面积污染比是一个滞后性的资料，但它往往是影响人口预期寿命的一个因素。(二)政策建议1、各省市应合理确定公立医院功能、数量、规模、结构和布局；大力发展非公立医疗机构；优先建设发展县级医院；提高医保报销比例；建立重特大疾病保障机制等实施措施。这些措施从疾病预防和治疗上为实现人均

30、寿命增长提供了医疗保障，但是，要真正提高寿命，最主要的是提高食品质量、改善膳食结构、提高人们的保健意识。良好的身体素质是延长寿命的根源。2、提高人民生活水平，大力发展经济建设，增加人均GDP, 有利于人民安居乐业，从而国泰民安。 3、注重卫生条件的改善，提高食品健康、居住卫生等公共卫生条件有利于增加人口寿命，建造和谐社会。 4、加大环境污染的治理，改善人民生活环境也有利于增加人口寿命。参考文献：（摘自:人口学刊）崔红艳我国人口平均预期寿命解析中国信息报（）中华人民共和国统计局年统计年鉴北京：中国统计出版社，中华人民共和国统计局年统计年鉴北京：中国统计出版社，中华人民共和国统计局年统计年鉴北京：中国统计出版社，联合国环境规划署全球环境展望北京：中国环境科学出版社，24

展开阅读全文