多元统计分析课程设计.docx

上传人:小飞机 文档编号:3839169 上传时间:2023-03-24 格式:DOCX 页数:32 大小:206.84KB
返回 下载 相关 举报
多元统计分析课程设计.docx_第1页
第1页 / 共32页
多元统计分析课程设计.docx_第2页
第2页 / 共32页
多元统计分析课程设计.docx_第3页
第3页 / 共32页
多元统计分析课程设计.docx_第4页
第4页 / 共32页
多元统计分析课程设计.docx_第5页
第5页 / 共32页
点击查看更多>>
资源描述

《多元统计分析课程设计.docx》由会员分享,可在线阅读,更多相关《多元统计分析课程设计.docx(32页珍藏版)》请在三一办公上搜索。

1、多元统计分析课程设计多元统计分析课程设计题目:因子分析在环境污染方面的应用姓名:王厅厅专业班级:统计学 级2班学院:数学与系统科学学院时间: 1月 3 日目录1.摘要:12.引言:12.1背景12.2问题的研究意义12.3方法介绍23.实证分析103.1指标103.2原始数据103.3数据来源133.4分析过程:134.结论及建议255.参考文献261.摘要: 中国的环境问题,由于中国政府对环境问题的关注,环境法律日趋完善,执法力度加大,对环境污染治理的投人逐年有较大幅度的增加,中国环境问题已朝着好的方面发展。可是,仍存在着环境问题,主要体现在环境污染问题,其中主要为水污染和大气污染。关键词:

2、环境污染 水污染 大气污染 因子分析2.引言:2.1背景:中国的环境保护取得了明显的成就,部分地区环境质量有所改进。可是,从整体上看,中国的环境污染仍在加剧,环境质量还在恶化。大气二氧化硫含量居高不下,境质量呈恶化趋势,固体废弃物污染量大面广,噪声扰民严重,环境污染事故时有发生。据中国社会科学院公布的一项报告表明:中国环境污染的规模居世界前列。2.2问题的研究意义:为分析比较各地环境污染特点,利用因子分析对环境污染的各个指标进行降维处理并得到影响环境的内在因素,进一步对环境污染原因及治理措施进行分析,让更多的人认识到环境的重要性,准确把握各地区环境治理方法以及针对不同地区制定不同的政策改进环境

3、问题,这对综合治理环境问题具有重要意义。2.3方法介绍因子分析的意义:变量间的信息的高度重叠和高度相关会给统计方法的应用设置许多障碍。为解决此问题,最简单和最直接的解决方案是削减变量个数,但这必然会导致信息丢失和信息不完全等问题的产生。为此人们希望探索一种更有效地解决方法,它既能大幅减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正是这样一种能够有效降低变量维数的分析方法。因子分析的步骤:因子分析的前提条件:要求原有变量之间存在较强的相关关系。因子提取:将原有变量综合成少数几个因子是因子分析的核心内容。 若存在随机向量及,使简记为,且(1)(标准化);(2)(中心化);(3)

4、(不相关)。那么,称指标向量具有正交因子结构(所有因子相互正交,即);称此模型为正交因子模型;称为公共因子(对整个有影响的公共因素);称为特殊因子(只正确各对应分量有影响的特殊因素);称为因子载荷矩阵,为第个指标在第个公共因子上的载荷。因子载荷矩阵的建立因子分析的最基本任务之一就是建立因子载荷矩阵。对于正交因子模型,有若已标准化,则在绝大多数实际问题中,往往都是未知的,由此求出是不可能的,这时能够经过主成分分析给出一组公共因子及其因子载荷矩阵。具体方法如下:(1)求出的特征根,以及相应的单位特征向量。(2)建立主成分。是正交矩阵。(3)构造公共因子,并建立因子载荷矩阵。 (逆问题)令 容易验证

5、: 具有如下正交因子结构: (?)完全忽略了特殊因子的影响。若只取前个主成分,且令,则有其中。忽略了不重要的公共因子,由特殊因子解析。换句话说,用主成分法获得了的正交因子分解(近似)中的。这里的主要问题是如何确定因子数k方法一:根据特征值确定因子数。观察各个特征值,一般取特征值大于1的。方法二:根据因子的累计方差贡献率确定因子数。 一般选取累计方差贡献率大于0.85时的特征值个数为因子个数k。使因子具有命名解释性实际分析工作中人们总是希望对因子的实际含义有比较清楚的认识。未解决这个问题,可经过因子旋转的方法使一个变量只在尽可能少的几个因子上有比较高的载荷。最理想状态下,使某个变量在某个因子上的

6、载荷趋于1,在其它的因子上的载荷趋于0。这样,一个因子就能够成为某个变量的典型代表,于是因子的实际含义也就清楚了。 因子正交旋转当指标向量具有正交因子结构时,其公共因子向量、因子载荷矩阵及正交因子分解均不唯一确定。对任一阶正交矩阵,有令则利用正交因子分解的这一性质,在因子分析(正交因子模型)中,常常在建立了初始因子载荷矩阵之后,再对其作适当的正交变换(几何解释:因子轴旋转),以使得因子载荷矩阵具有更简洁、更理想(近乎分块对角矩阵形式)的结构,公共因子向量具有更明显、更直观的实际意义,正交因子分解更合理、更能反映客观实际。当前,已经提出了各种因子旋转的方法。比较常见的一种是方差极大因子轴正交旋转

7、法,简称方差极大法。先考虑两个公共因子的平面正交旋转。 具有更理想、更简化的结构,即使其各列的因子载荷值尽可能地两极分化,大者尽可能大,小者尽可能小。各载荷值可正可负,的依赖程度也不同,消除其影响:(规格化)正交旋转的目的就是要使新因子载荷矩阵的各列方差之和(总方差)达到最大。记则可由下式确定:tg且的符号可由的符号确定:当公共因子数时,需要对因子载荷矩阵中的列因子载荷向量配两两对旋转,共旋转次。列。先确定,后旋转。仅列元素改变。全部列两两配对旋转完毕后,就完成了第一轮旋转。如果因子载荷矩阵还不能达到要求,那么进行第二轮旋转,如此进行下去,直到满足要求为止。每经一轮旋转,都可算出因子载荷矩阵的

8、总方差。是一非降序列,且有上界(为),故必收敛于某一极限值,即为最大总方差。实际中,一般旋转到总方差改进不大,即(给定精度)时,旋转停止。最后,取作为最终因子载荷矩阵。计算因子得分因子得分是因子分析的最终体现。在因子分析的实际应用中,当因子确定以后,便可计算各因子在每个样本观测上的具体数值,这些数值称为因子得分,形成的变量称为因子得分变量。于是,在以后的分析中就能够因子得分变量代替原有变量进行数据建模,或利用因子得分变量对样本进行分类或评价等研究,进而实现降维和简化问题的目的。 ,3.实证分析3.1指标:废水排放总量、需氧量排放总量、氨氮排放总量、二氧化硫排放总量、氮氧化物排放总量、烟尘灰尘排

9、放总量3.2原始数据:地区废水排放总量化学需氧量排放总量氨氮排放总量二氧化硫排放总量氮氧化物排放总量烟尘灰尘排放总量北京15.0716.881.97.8915.15.74天津8.9421.432.4520.9228.2313.95河北30.98126.8510.27118.99151.25179.77山西14.544.135.37120.82106.99150.68内蒙古11.1984.774.93131.24125.83102.15辽宁26.29121.710.0199.4690.2112.07吉林12.2274.35.3137.2354.9247.51黑龙江14.96142.398.494

10、7.2273.0679.35上海22.1222.444.4618.8133.2814.17江苏60.1211014.2590.47123.2676.37浙江41.8372.5410.3257.468.7937.97安徽27.2388.5610.0549.380.7365.28福建26.0662.988.9335.641.1736.79江西20.8372.018.653.4454.0146.23山东51.44178.0415.5159.02159.33120.81河南42.28131.8713.9119.82142.288.21湖北30.17103.3112.0458.3858.0250.4湖南

11、31122.915.4462.3755.2849.62广东90.51167.0620.8273.01112.2144.95广西21.9374.47.9346.6644.2440.29海南3.9419.62.293.269.52.32重庆14.5838.645.1352.6935.522.61四川33.13121.6313.4779.6458.5442.86贵州11.0932.673.892.5849.1137.79云南15.7553.385.6563.6749.8936.68西藏0.542.790.340.424.831.39陕西14.5850.495.8278.170.5870.91甘肃6.

12、637.323.8157.5641.8434.58青海2.310.50.9815.4313.4523.99宁夏3.7321.981.6637.7140.423.92新疆10.2767.024.5985.386.2881.393.3数据来源:中国环境年鉴3.4分析过程: 利用SPSS软件进行分析,首先录入数据,然后一次进行如下处理:一、考察原有变量是否适合进行因子分析 首先考察收集到的原有变量之间是否存在一定的线性关系,是否适合采用因子分析。这里借助变量的相关系数矩阵进行分析。表一是原有变量的相关系数矩阵。能够看到:大部分的相关系数都较高,各变量呈较强的线性关系,能够从中提取公共因子,适合进行因

13、子分析。表一相關性矩陣废水排放总量 单位:亿吨化学需氧量排放总量 单位:万吨氨氮排放总量 单位:万吨二氧化硫排放总量 单位:万吨氮氧化物排放总量 单位:万吨烟尘灰尘排放总量 单位:万吨相關废水排放总量 单位:亿吨1.000.762.913.424.612.277化学需氧量排放总量 单位:万吨.7621.000.906.647.773.592氨氮排放总量 单位:万吨.913.9061.000.519.650.394二氧化硫排放总量 单位:万吨.424.647.5191.000.903.842氮氧化物排放总量 单位:万吨.612.773.650.9031.000.864烟尘灰尘排放总量 单位:万吨

14、.277.592.394.842.8641.000二、提取因子这里首先进行尝试性分析:根据原有变量的相关系数矩阵,采用主成分分析提取因子并选取大于1的特征值,分析结果如表2所示。表二Communalities起始擷取废水排放总量 单位:亿吨1.000.923化学需氧量排放总量 单位:万吨1.000.892氨氮排放总量 单位:万吨1.000.971二氧化硫排放总量 单位:万吨1.000.908氮氧化物排放总量 单位:万吨1.000.953烟尘灰尘排放总量 单位:万吨1.000.931擷取方法:主體元件分析。表二显示了在指定提取2个变量共同度数据。第一列数据是因子分析初始解下的变量共同度,它表明:

15、如果对原有7个变量采用主成分分析方法提取所有特征值,那么原有变量的所有方差都可被解释,变量的共同度均1.事实上,因子个数小于原有变量的个数才是因子分析的目标,因此不可能提取全部特征值。第二列数据是在按指定提取条件提取特征值时的变量共同度。能够看到所有变量的绝大部分信息可被因子解释,信息丢失少。因此,本次因子提取的总体效果比较理想。表三 說明的變異數總計元件起始特徵值擷取平方和載入循環平方和載入總計變異的 %累加 %總計變異的 %累加 %總計變異的 %累加 %14.38273.04073.0404.38273.04073.0402.81046.83146.83121.19619.93292.97

16、21.19619.93292.9722.76846.14192.9723.2073.44496.4164.1342.24198.6565.0621.03799.6946.018.306100.000擷取方法:主體元件分析。表三中,第一列是因子编号,以后三列组成一组,每组中数据项的含义依次是特征值、方差贡献率和累计方差贡献率。前两个因子解释原有变量总方差的93%,总体上,原有变量的信息丢失较少,因子分析效果较理想。表四表四中,横坐标为因子数目,纵坐标是特征值。能够看到:第一个因子特征值很高,对解释原有变量的贡献最大;第二个以后的因子特征值都较小,对解释原有变量的贡献很小,因此提取两个因子是合适的

17、。表五元件矩陣a元件12氮氧化物排放总量 单位:万吨.939-.266化学需氧量排放总量 单位:万吨.917.226氨氮排放总量 单位:万吨.856.487二氧化硫排放总量 单位:万吨.848-.434废水排放总量 单位:亿吨.778.564烟尘灰尘排放总量 单位:万吨.775-.575擷取方法:主體元件分析。a. 擷取 2 個元件。表五显示了因子载荷矩阵,是因子分析的核心内容。根据该表能够写出因子分析模型:氮氧化物排放总量=0.939*-0.266*化学需氧量排放总量=0.917*+0.226*氨氮排放总量=0.856*+0.487*二氧化硫排放总量=0.848*-0.434*废水排放总量=

18、0.778*+0.564*烟尘灰尘排放总量=0.775*-0.575*由表五可知,六个变量在第一个因子上的载荷都很高,意味着她们与第一个因子的相关程度高,第一个因子很重要。第二个因子与原有变量的相关性均较小,它对原有不安量的解释不显著。三、 因子的命名解释采用方差极大法对因子载荷矩阵进行正交旋转以使因子具有命名解释性。得到旋转后的因子载荷矩阵如图六所示。图六旋轉元件矩陣a元件12烟尘灰尘排放总量 单位:万吨.955.136二氧化硫排放总量 单位:万吨.909.287氮氧化物排放总量 单位:万吨.855.471氨氮排放总量 单位:万吨.268.948废水排放总量 单位:亿吨.157.948化学需

19、氧量排放总量 单位:万吨.494.805擷取方法:主體元件分析。 轉軸方法:具有 Kaiser 正規化的最大變異法。a. 在 3 疊代中收斂循環。由表六可知,烟尘灰尘排放总量、二氧化硫排放总量、氮氧化物排放总量在第一个因子上有较高的载荷,第一个因子能够解释为大气污染物排放总量。氨氮排放总量、废水排放总量、化学需氧量排放总量在第二个因子上有较高的载荷,第二个因子能够解释为水污染物排放总量。与旋转前相比,因子含义较清晰。表七元件評分共變異數矩陣元件1211.000.0002.0001.000擷取方法:主體元件分析。 轉軸方法:具有 Kaiser 正規化的最大變異法。 元件評分。表七显示了两因子的协

20、方差矩阵。两因子没有线性相关关系,实现了因子分析的设计目标。四、 计算因子得分采用回归法估计因子得分系数,并输出因子得分系数。表八元件評分係數矩陣元件12废水排放总量 单位:亿吨-.205.461化学需氧量排放总量 单位:万吨.016.282氨氮排放总量 单位:万吨-.147.427二氧化硫排放总量 单位:万吨.393-.122氮氧化物排放总量 单位:万吨.309-.007烟尘灰尘排放总量 单位:万吨.463-.218擷取方法:主體元件分析。 轉軸 方法:具有 Kaiser 正規化的最大變異法。 元件評分。 根据表八可写出以下因子得分函数:=-0.205*废水排放总量+0.016*化学需氧量排

21、放总量-0.147*氨氮排放总量+0.393*二氧化硫排放总量+0.309*氮氧化物排放总量+0.463*烟尘灰尘排放总量=0.461*废水排放总量+0.282*化学需氧量排放总量0.427*氨氮排放总量-0.122*二氧化硫排放总量-0.007*氮氧化物排放总量-0.218*烟尘灰尘排放总量另外,因子得分的均值为0,标准差为1。正值表示高于平均水平,负值表示低于平均水平。地区因子得分1因子得分2地区因子得分1因子得分2 北京-1.24699-0.57979河南1.089550.97693天津-0.88044-0.73934湖北-0.374430.75745河北2.36983-0.09971湖

22、南-0.464941.17204山西2.03859-1.24591广东-0.774943.30542内蒙古1.81446-0.91302广西-0.503040.13154辽宁1.047180.15182海南-1.26173-0.76721吉林-0.25843-0.33525重庆-0.55114-0.41907黑龙江0.220970. 2四川-0.309471.03004上海-1.06205-0.24016贵州0.18358-0.85403江苏0.320921.46441云南-0.20629-0.36888浙江-0.526020.77841西藏-1.24652-1.09844安徽-0.05073

23、0.37961陕西0.46793-0.62279福建-0.75070.30179甘肃-0.20203-0.80876江西-0.307840.09465青海-0.82359-1.11995山东1.82861.31332宁夏-0.43681-1.03388新疆0.85653-0.81297五、 各地区的综合评价可利用因子得分变量对地区进行对比研究。首先,绘制两因子得分变量的散点图,如图九所示。图九 首先,能够观察到广东的第二因子得分很高,说明了广东的水污染比较严重。河北的大气污染很严重,总的污染程度更是居全国之首。 其次,对各地区污染物排放总量进行综合评价。采用计算因子加权总分的方法,计算公式为:

24、F=(0.73/0.93)*+(0.2/0.93)*得到各地区的污染物排放总量,并按其进行降序排序。地区污染物排放总量河北1.86湖南-0.13山东1.72湖北-0.14山西1.36江西-0.22内蒙古1.25云南-0.24河南1.07浙江-0.26辽宁0.86吉林-0.27江苏0.56甘肃-0.33新疆0.51广西-0.37陕西0.24重庆-0.52黑龙江0.22福建-0.53广东0.07宁夏-0.56安徽0.04天津-0.85贵州-0.03青海-0.88四川-0.03上海-0.89北京-1.11污染物排放总量较高的地区有河北、山东、山西、内蒙古、河南、辽宁等;污染物排放总量较低的地区有西藏

25、、海南、北京、上海、青海、天津等。4.结论及建议4.1结论各地区污染情况按照大气污染和水污染程度进行分类,能够分为三类。第一类为严重大气污染型地区,有河北、山西、内蒙古。第二类为较严重污染型地区,有山东、河南。第三类为较轻污染型地区,有北京、天津等地区。第四类为严重水污染地区,有广东地区。4.2建议对于大气污染比较严重的地区如河北,山东,山西,内蒙古等,大气污染综合整治规划是根据城市大气质量现状与发展趋势进行功能区划并按拟定的环境目标计算各功能区最大允许排放量和削减量,从而制定污染治理方案。大气污染的治理应根据城市的能源结构与交通状况确定首要污染物即浓度高、范围广、危害大的污染物,便于治理时有

26、的放矢、对症下药。当前中国大部分城市的大气污染主要是由燃煤和汽车尾气引起。经过技术和行政的手段减少汽车尾气的污染;提高城市绿化率、选择抗污染性好的树种,大力发展植物净化。调整工业布局,强化污染源的治理,降低污染物的排放量。对于水污染比较严重的地区如广东、江苏、山东、四川等,在发展工业,建设城市的同时,就要注意到水资源的保护。因为一旦水资源受到污染,将严重的制约工业、农业的发展。要解决水污染问题的根本途径还是在于要发动全球人民,增强保护水资源、节约用水意识。同时大力研制循环用水技术、海水淡化技术、污水净化技术等,并对排放污水或污染物质严重的企业、生活区进行合理管制和必要的惩罚,以增强保护水资源意识。除此之外,由于中国各地区的污染程度各有不同,又有相同之处,可对全国的污染问题进行大致的分类,联系各地区的水流流向以及各个季节的风向分析污染源头,进而全面系统化的分析,对其进行优化以减少污染的排放,制定相应的措施,在根本上解决全国的污染问题。5.参考文献 中国环境年鉴

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号