《毕业设计(论文)基于logistic回归模型的污染总量减排措施绩效分析.doc》由会员分享,可在线阅读,更多相关《毕业设计(论文)基于logistic回归模型的污染总量减排措施绩效分析.doc(29页珍藏版)》请在三一办公上搜索。
1、基于logistic回归模型的污染总量减排措施绩效分析摘要环境政策是政府进行环境管理的主要工具之一,对其进行绩效评价非常重要。本研究以全国30个省、市、自治区为例,通过定量化分析各类环境政策与污水COD总量减排绩效之间的关系,得到各政策对污染减排起到的作用。通过查阅相关资料,运用头脑风暴法、专家评价法初步选出主要的污染减排影响因子,并得到各地区的GDP、COD排放等相关数据,用excel、SPSS软件对这些影响因子进行共线性诊断和单因子回归,进一步筛选这些变量,分别以不同的剔除标准进行回归分析,建立最优回归模型,获得各因子对减排绩效的贡献度。研究结果表明,对减排绩效产生显著影响的因子按作用大小
2、依次是:关停并转迁企业数(个) 、环评制度执行率(%)、当年新增废水治理设施去除的COD(吨),说明淘汰落后生产能力这类结构措施非常重要,经济管理方面的排污收费政策也起到了关键的作用,企业内部污水处理这方面的工程措施也对污染减排起到了一定的效果。另外,实际上污水处理量(万吨)与二产业比重(%)这两个因子数值大说明当地污染相对严重,倾向于使减排效果不显著,与模型分析结果一致。应该加强行业结构调整力度和淘汰落后企业能力,完善环评制度,大力推进进污水治理设施的建设和应用。关键词:环境政策,影响因子,总量减排措施绩效, logistic回归模型Study on the Performance of M
3、easures for Reducing Total Emission Volumes based on Logistic Regression ModelEnvironmental Science 05-1 Meng Xiao-ningSupervisor Wang Chun-meiAbstractEnvironmental policy is one of the governments main tools for environmental management. It is of great importance to evaluate their performance. In t
4、his study, we take 30 provinces and cities in our country as an example and quantitatively analyze the relationship between various types of environmental policies and COD emission reduction performances. Then we can know the role every policy played on the pollution abatement. Through searching rel
5、evant information and using brainstorming、experts evaluation methods we first pick out main factors which play important roles in the pollution emission reduction. Then we get the GDP, COD emissions and some other relevant data of various regions. Analyze the co-linearity of all the factors an do si
6、ngle-factor linear regression by excel、SPSS software for further screening . Do regression analysis with different standards in order to find the optimal regression model. At last, we can get the contribution of each the factors to emission reduction. The results show that factors which play an impo
7、rtant role on the emission reduction according to the strength are: the number of enterprises which are closed or in transfer (a)、the implementation rate of the environmental assessment system (%)、COD removed by new waste water treatment facilities ( tons).It indicates that measures of structure res
8、pect for eliminating backward production are very important. Sewage charging policy of economic management aspect also played a key role. Besides, internal sewage treatment measures of abatement respect also have a very good effect. In addition, in fact, if the value of sewage treatment capacity (mi
9、llion tons) and the proportion of secondary industry are large, it means that the local pollution is serious. The result is not inclined to make a significant reduction, consistent with the results of the analysis model. The government should strengthen the efforts of industry adjusting and backward
10、 production capabilities eliminating. Besides, it should improve the environmental assessment system and promote the construction and applications of sewage treatment facilities.Key words: environmental policy, influential factors, performance of measures for reducing total emission volumes, logisti
11、c regression model目录1 绪论31.1国内外研究现状31.1.2定性研究31.1.2定量研究31.2模型简介31.2.1模型应用领域31.2.2模型基本原理31.2.3模型分类32资料和方法32.1研究对象32.1.1研究地区32.1.2研究基准时间32.1.3影响因子(X)32.1.4减排绩效(Y)32.2统计工具32.3研究方法33 污染总量减排措施绩效分析结果33.1各指标相关性分析33.2各指标单因子回归分析33.3总量减排措施绩效回归分析结果33.3.1高显著性水平下分析结果33.3.2较低显著性水平下分析结果34结论与展望34.1结论34.2展望3致谢3参考文献3
12、附录31 绪论环境政策是解决环境问题的重要途径,是政府进行环境管理的主要工具之一。环境政策评估是指依据一定的标准和程序,对环境政策的效益、效率、效果及价值进行判断的一种行为,是环境政策运行过程这一有机链条中的重要一环,是政策达到预定目标的基本和重要保证。政策最终表现出的绩效是多因子的综合作用结果,而我们缺乏对这些政策因子分别贡献的定量认识。 “十一五”期间,污染物总量减排的措施主要有三类,包括工程治理减排措施、结构调整减排措施、监督管理减排措施。本研究以COD总量减排系列措施为政策案例,对我国2007年的环境污染减排进行定量分析,得出各类措施在污染减排中贡献度的大小。即是为“十一五”的工作做总
13、结,也是为 “十二五”的政策制定提供参考,同时是对多政策因子绩效定量化评价的研究模式及方法的探索。1.1国内外研究现状1.1.2定性研究目前国内外对环境政策绩效的评价多采用“定性”和“半定性半定量”的方式,很多已有的半定量方式缺乏严谨的科学性解释,这给政策的制定和实施带来了可操作性差、成本偏高等问题。这类研究主要是回顾污染物排放总量控制发展的历程, 指出总量控制方法体系在执行方法上存在的问题,例如对中国排污收费制度从理论和实践上进行分析拓宽,对中国排污收费制度的发展历史、存在问题、影响因子及以后改革方向进行阐述1。最后从监督管理方面、经济政策方面、技术政策方面提出相应建议,属于综述性质的,不够
14、科学严谨。 另一部分研究是针对某一类措施对污染排放的影响,例如有研究结果表明,政策的筹集资金功能强于旧收费制度,但对于污染物减排是乏力的2。以上这两类都没有具体到“量”的水平。哪些政策收到了显著的效果,哪些实际上无效,都没有科学的、具体的说明,且对各类措施的探讨不够全面,没有形成完整体系。1.1.2定量研究目前国内外对环境政策绩效的定量化评估方面的研究极少。但是“定量评价”对于改进环境政策制订系统,克服环境政策运行中的弊端和障碍,增强环境政策的活力和效益,提高环境政策水平具有重要作用和极其深远的意义。政策绩效的“定量化”方法也是环境管理研究领域最为重要的研究主题之一,它是开展其它类型研究的基础
15、和前提,目前还处在发展阶段。1.2模型简介1.2.1模型应用领域许多社会科学的观察结果都是分类的变量,而不是连续的。例如医学上,研究对象只有生病与不生病两种情况,不会产生连续的结果。在分析这类分类变量时,常用对数线性模型,Logistic回归分析模型是对数线性模型的一种特殊形式3。当对数线性模型中的一个二分类变量被当作因变量并定义为一系列自变量函数时,对数线性模型就变成了Logistic回归模型。logistic回归分析模型最初是应用于医学研究上,随着模型的更加完善和进步,广泛的应用在人口、社会学研究上4。例如,为了评估退耕还林工程的可持续性,对比退耕还林前后,农民的经济状况和经济结构。如果退
16、耕还林后,有的农户生活质量下降了,则试图使用logistic模型来进一步探索哪中因子使得家庭生活质量下降了,然后建议政府采取相应政策。另外,还有能源结构的、我国人口未来的发展趋势的Logistic模型等等,并最终都根据预测的结果提出了相应的对策与建议。可见,该模型在目前的应用是成熟和广泛的,能较为全面的考虑各因素,模型的精确度和实用性很高5。本研究将之应用于环境政策绩效评价上,借鉴他人研究方法和经验,探索环境政策绩效评估的合理、有效模式。1.2.2模型基本原理二分类logistic回归分析模型中,因变量是二分类,即Y=1或0,自变量是一系列的连续变量,用于探讨自变量与因变量之间的关系6。将事件
17、发生的条件概率标注为P(yi=1|xi)=pi,就能得到下列logistic回归模型: (1-1)其中,pi为第i个案例发生事件的概率。它是由一个解释变量xi构成的非线性函数(non-linear function);xi为自变量;和分别为回归截距和回归系数。然而这个非线性函数可以被转变为线性函数(linear function)。首先,定义不发生事件的条件概率为: (1-2)那么,事件发生概率与事件不发生概率之比为 (1-3)这个比被称之为事件的发生比(the odds of experiencing an event),简称为odds。Odds一定为正值,因为0pi1,所以没有上界。将od
18、ds取自然对数就能够得到一个线性函数: (1-4)将logistic函数做了自然对数转换为logit形式(logit form),也称作y的logit,即logit(y)。logit(y)有许多可利用的线性回归模型的性质。根据该模型的数据输出即可得到各个X对于Y的回归系数,也就是本研究中的贡献度。1.2.3模型分类按照研究对象之间发生某事件是否独立可将模型分为条件logistic模型和非条件logistic模型;按照因变量分类数量,可分为二分类logistic模型与多分类logistic模型7。考虑到二分类的应用更为广泛,也更加容易解释,本研究采用二分类logistic模型。2资料和方法2.1
19、研究对象2.1.1研究地区以北京、天津、河北、山西、内蒙古、辽宁、吉林、黑龙江、上海、江苏、浙江、安徽、福建、江西、山东、河南、湖北、湖南、广东、广西、海南、重庆、四川、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆这30个省、市、自治区的环境政策和减排结果为研究对象,即以这30个地区的政策数据为样本。由于西藏的数据多数为0,进入模型中会造成较大的偏差,因而本次研究没有将西藏自治区的数据纳入模型。2.1.2研究基准时间 从国家统计年鉴上可以获得的最新数据为2007年各省污染总量减排政策数据和COD排放的数据。并且2007年是“十一五”(2006-2010年)中的一年,大部分政策在这一年得到了有
20、效的实施。因而以这一年为本项目的基准研究时间。2.1.3影响因子(X)根据头脑风暴法、专家评价法,结合环境专业知识和实际可获得数据情况,初步筛选出以下17个指标作为各类环境政策的代表性指标。这些指标可以代表工程治理减排措施、结构调整减排措施、监督管理减排措施这些措施。并且,它们从来理论上来讲,或多或少都对COD污染减排产生了影响,都是可能对减排产生作用的影响因子。本研究中,利用logistic回归分析模型得出这些指标各自的贡献度,即可返回分析它们所属政策类型的减排力度。对这17个指标分别进行编号,并从国家统计局发布的2008年统计年鉴、2008年环境统计年鉴上获得各指标数据,各变量均为连续变量
21、,赋值即各自的统计数据,可在处理后直接进入模型,具体数据见附表A1-A3。使用模型进行回归分析之前,必须先对数据进行正态检验,若有变量不通过正态检验,则应对其进行转化,达到正态分布状态8。用SPSS软件对这17个指标进行正态检验,检验结果中Skewness的绝对值大于其标准误差的1.96倍(0.427*1.96=0.837)的表示其与正态分布有显著差别9。本研究的17个指标中除X10、X12、X17成负偏态分布外,其余指标均呈正偏态,应该通过转换来达到或接近对称。对于高度偏态(Skewness为其标准误差的3倍以上)的取自然对数;中度偏态(Skewness为其标准误差的2-3倍)的取平方根10
22、。X10、X12、X17显示了负偏态的分布,则先对原始变量做反向转换,将所有的值反过来,将最大值变成最小值、最小值变成最大值,公式为nx = max - x + 1。其中nx为转化后的数据,x为原始数据,max为本列数据中的最大值。重复以上步骤,最终各自变量均通过正态分布验证。进行正态转化之后用SPSS软件对各数据进行标准化11。处理后各省各指标数据如附录中表A4-A6所示。各指标具体编号和指标赋值标准如下表2.1所示。表2.1 初步筛选出的各指标及赋值方法 Table 2.1 Indicators by initial screening and their evaluation metho
23、ds变量编号变量名称赋值x1废水治理设施数(套)设施套数x2废水治理设施治理能力(万吨/日)日处理废水量x3当年新增废水治理设施去除的COD(吨)COD减少值x4污水处理厂设计处理能力(万吨/日)日处理污水量x5工业区废污水集中处理装置数(座)装置数x6集中处理装置处理能力(吨/日)日处理量x7污水处理量(万吨)日处理量x8完成强制性清洁生产审核项目数(个)项目个数x9完成限期治理项目数(个)项目个数x10环价制度执行率(%)执行率x11排污费征收总额(万元)收费金额x12“三同时”合格率(%)合格率x13当年受理环境行政处罚案件数案件数目x14废水污染在线检测仪器套数(套)仪器套数x15关停
24、并转迁企业数(个)关停企业个数x16万元GDP废水产生量(吨)吨数x17第二产业比重比例数注:为说明方便,以下文中出现的指标均用其编号表示。2.1.4减排绩效(Y)设2007年各地区实际排放到水体中的COD的量为y1,又假定存在一个虚拟量y2 ,该变量表示随着各省主要COD排放行业生产出来的产品增多,GDP增加,在不采取任何减排措施的情况下应该产生的COD的量。令Y= y2 -y1,即2007年的总减排绩效。y1 可以直接由统计年鉴查出,y2 是虚拟值,需要确定它的算法。结合实际和模型拟合结果确定算法为:设定各省的虚拟COD排放量y2与当地主要COD排放行业产生的GDP成线性关系,即COD=G
25、DP*K,其中K表示当年每单位GDP产生COD量,具体数据见附录表A7。由于每年都有一个虚拟排放量y2 ,又设定可获得数据的“十五”期间的中间年2003为基准年,将这一年的实际COD排放量作为其虚拟y2 。这样即可得到K值,代入2007年GDP数据,即可得到2007年的虚拟排放量y2 ,算出y2 与实际COD排放量y1 的差值,得到减排绩效Y,具体数据见附录表A8。其中,第一产业主要为农林牧副渔业,产生COD的量较少,第二产业是对第一产业和本产业提供的产品进行加工的部门,包括采矿业,制造业,电力、燃气及水的生产和供应业,建筑业12。正是这些行业产生了大量的COD,因而以第二产业GDP与第三产业
26、中餐饮业的GDP之和作为各省GDP进入计算。各省份的减排绩效直观图如下图2.1所示。图2.1各省份COD减排绩效 Fig. 2.1 Performance of total COD emission volumes reducing of each province综上,可得到2007年各地区Y值数据,根据各省Y值的平均值,将因变量Y划分为两类:Y赋值=0,Y均值49.31,表示减排绩效好(显著)。 各省赋值具体如下表2.2所示:表2.2 模型中各省COD减排绩效值Table 2.2 Data of total COD emission volumes reducing of each pro
27、vince in the model省名Y赋值省名Y赋值省名Y赋值北京0浙江1海南0天津0安徽0重庆0河北1福建0四川1山西1江西1贵州0内蒙古1山东1云南0辽宁0河南1陕西1吉林0湖北0甘肃0黑龙江0湖南1青海0上海0广东1宁夏0江苏1广西1新疆0其中,赋值为0的省份,减排效果不显著的占60%,赋值为1的省份,减排效果显著占40%.2.2统计工具本研究数据通过Excel进行预处理,再用SPSS13.0软件包分别进行相关性分析、单因素回归分析和多因素回归分析等,从而获得最终结果。2.3研究方法采用最常用的二分类Logistic回归分析法。通常意义上的Logistic回归要求因变量只有两种取值(
28、二分类) 13。这种分析不仅可用于医疗卫生领域的研究、也可应用于社会学、经济学等领域的研究,例如研究学生龋齿严重程度 (自变量) 与刷牙、饮食习惯等的关系14。在此,将二分类logistic回归分析模型引入环境政策评价领域。技术路线如下图2.2所示: 头脑风暴法、专家评价法影响因素初步筛选减排绩效与影响因子定量化表征数据处理数据处理(正态化、标准化)寻找合适指标进入模型各指标相关性分析单因素回归分析选择最优模型,进行回归分析结论与展望排除多重共线性结合实际比较分析 图2.2 技术路线 Fig. 2.2 Technic flowchart3 污染总量减排措施绩效分析结果3.1各指标相关性分析 对
29、各指标进行相关性的分析,以排除多重共线性15。考虑到样本较小,因而取较高的相关系数临界值,即分析结果中皮尔逊相关系数若大于0.8,则删除其一。各指标彼此间的皮尔逊相关系数如下表3.1所示。表3.1各指标皮尔逊相关性系数Table 3.1 Pearson correlation coefficient of every indicator1234567891011121314151617 11.000 2.880*1.000 3.464.4621.000 4.757.716.3111.000 5.402.223-.033.4021.000 6.322.190.053.292.919*1.000
30、7.768.701.270.981*.437.3151.000 8.635.536.442.517.455.444.4741.000 9.370.537.339.508.276.304.478.5201.00 10.088.144.319.036-.239-.289.021.164.1141.00 11.824*.758.466.649.448.400.613.676.516.1071.00 12-.100-.156-.152-.263.128.043-.244-.081-.188.005-.021.00 13.791.776.344.816*.366.303.798.462.584.107.
31、79-.121.00 14.884*.740.483.874*.467.391.886*.622.370.069.74-.18.751.00 15.831*.811*.531.599.400.429.556.563.497-.025.89*-.07.76.6861.0 16.108.199.409-.006-.053-.026-.052-.101.113.058.04-.05.13.098.231.0 17-.338-.256-.184-.219-.305-.301-.176-.558-.28.030-.60-.03-.34-.29-.50.091 注1:表中编号为指标编号,见表2.1; 2:
32、皮尔逊相关系数大于0.8的在表中以星号标出。根据上表可以得到,X1与X11、X14、X15高度相关;X2与X15高度相关;X4与X7、X13高度相关;X5与X6高度相关; X7与X14高度相关;X11与X15高度相关。并且它们之间的相关性都在0.8-0.9左右,相关性极强。这些高度相关的指标中,都应在删除其中某一个之后才能进入回归分析模型16。但是具体删除哪个指标要看其与其他指标间的相关性比较和单因子回归分析结果,并且结合实际与专业知识进行筛选排除。3.2各指标单因子回归分析选择自变量的工作通常从检查每个自变量与反应变量之间的二元关系着手17。对于连续变量,通常通过拟合logistic回归模型
33、来取得变量的显著性检验18。如果一个自变量在其简单关系的检验中有p0.25者,都应该考虑与其他重要变量一起作为多元模型的候选变量19。本模型中,各因子分别以强制进入方式进入回归分析模型,得到回归分析结果和模型参数分别如下表3.2、3.3所示: 表3.2 各指标单因子分析结果Table 3.2 Result of single-factor linear regression 指标编号BS.E.WaldSig.Exp(B)x12.3700.9296.5140.01110.698x21.9380.7506.6850.0106.948x32.2870.9695.5740.0189.846x40.86
34、80.4613.5520.0592.382x50.5710.3952.0940.1481.770x60.4640.3911.4120.2351.591x70.8170.4443.3830.0662.264x81.2390.5445.1770.0233.451x90.8930.4553.8440.0502.441x100.5550.3961.9680.1611.742x112.9531.1736.3380.01219.16x120.1280.3740.1170.7331.136x131.1400.5614.1310.0423.128x141.2710.5435.4750.0193.564x154
35、.0421.4298.0000.00556.919x160.4540.4061.2540.2631.575x17-1.0770.5194.3080.0380.341其中,X12、X16的相关性显著程度Sig.值(p值)都大于0.25,也就是说这些自变量与因变量的相关性是不可信的,但是X16的值仅为0.263,并不算太大,加之万元GDP废水产生量(吨)是一个比较重要的变量,结合实际与上面相关性指标考虑,留下X2、X3、X6、X7、X8、X9、X10、X15、X16、X17进入模型。由表3.2中Wald检验值可知,本步骤可通过Wald检验,且可信度较高。又对入选的各指标进行分析,可得其平均值、标准
36、差如下表3.3所示:表3.3 进入模型指标的参数Table 3.3 Parameter of indicators in the model X2X3X6X7X8X9X10X15X16X17N30303030303030303030Mean735.8319424.9379616.6763463.0048.00803.7799.51857.779.4348.33Sd.620.2030347.29222184.1465718.3882.97895.38.99971.475.987.47注:编号所代表指标如上表2.1所示。3.3总量减排措施绩效回归分析结果3.3.1高显著性水平下分析结果分别使用强制
37、进入法、向前逐步进入法对以上指标和减排绩效Y进行回归分析。使用强制进入法时,17个指标均进入模型,但是模型P值非常大,接近1,说明结果置信度太低。运用向前逐步进入法,采取Wald 检验法,使模型的引入水平entry为0.05,剔除水平removal为0.1,软件分析结果如表3.4和模型参数3.5所示。表3.4 COD总量减排绩效分析结果Table 3.4 Result of the analysis for performance of total COD emission volumes reducing指标编号BS.E.WalddfSig.Exp(B)95.0% C.I. for EXP(
38、B)SLowerUpperx36.4356.4181.0051.316623.464.002180999151.4381.003x102.2881.8381.5501.2139.856.269361.5911.245x158.6035.8212.1841.1395446.803.060490960001.9411.385常数-3.5613.3731.1151.291.028 该步骤中首先进入模型的是X15,其后X10、X3依次进入模型。根据B的正负性,本结果中B为正值,可知这三项指标均对减排绩效产生好的结果,即使减排效果显著。S.E.即样本均数的标准差,是描述均数抽样分布地离散程度及衡量均数抽
39、样误差大小的尺度20。S值为系数B与标准误差S.E.的比值,其值大小即各指标贡献度大小,X15、X10、X3依次减小,说明在所有指标中,X15对COD总量减排结果贡献最多,其次为X10、X3,二者也有较大贡献。实际即关停并转迁企业数(个) 、环评制度执行率(%)、当年新增废水治理设施去除的COD(吨)这三个指标对COD减排起到了显著的作用。模型的Sig.值均在0.35以下,且通过Wald检验,说明分析结果可信。SPSS软件同时得出了模型拟合准确度的参数,有Chi-square、Cox & Snell R Square、 Nagelkerke R-square等。Chi-square检验值越大,
40、说明准确度越高。Cox & Snell R Square、 Nagelkerke R-square即拟合优度,一般二者的取值范围在0-1之间,越接近于1,说明拟合度越高21。本步骤模型拟合参数如下表3.5所示。表3.5 COD总量减排绩效分析模型参数Table 3.5 Model parameters of the analysis for performance of total COD emission volumes reducingStep-2 Log likelihoodCox & Snell R SquareNagelkerke R SquareChi-square116.752(
41、a).550.7368.111211.628(b).623.8337.61437.276(c).675.9043.835Cox & Snell R Square 与Nagelkerke R Square表示模型拟合优度22。此处数值都趋近于1,说明模型拟合情况较好。同时-2 Log likelihood 值与Chi-square值较大,表明模型置信度较高,结论可信。3.3.2较低显著性水平下分析结果 由于样本数目较小,为了避免重要影响因子可能遗漏的情况,在模型中适当适当放宽指标,令引入水平entry为0.1,剔除水平removal为0.1,此时指标进入模型的概率更大,门槛更低,用向前逐步进入法
42、分析结果如下表3.6、3.7所示。表3.6 COD总量减排绩效分析结果Table 3.6 Result of the analysis for performance of total COD emission volumes reducing指标号BS.E.Sx372.63611318.9686.417x7-11.8721442.506-8.23x1052.2964565.45811.45x15142.97110734.56213.318x17-81.7056548.370-12.477该步骤中首先进入模型的是X15,其后X10、X3依次进入模型。根据B的正负性,本结果中B为正值,可知这三项指标均对减排绩效产生好的结果,即作用显著。X7、X17的B值为负数,说明这两个指标对减排产生的效果不显著。S值为系数B与标准误差S.E.的比值,其值大小即贡献度大小23。X15、X10、X3依次减小,说明在所有指标中,X15对COD总量减排结果贡献最多,其次为X10、X3也有较大的贡献。