《基于聚类模糊方法的啤酒酿造车间能耗分析系统设计.docx》由会员分享,可在线阅读,更多相关《基于聚类模糊方法的啤酒酿造车间能耗分析系统设计.docx(55页珍藏版)》请在三一办公上搜索。
1、北华大学毕业设计(论文)摘要啤酒工业是国家社会经济发展的重要产业部门,啤酒企业耗能高是制约企业发展的主要因素。提高资源能源利用效率,实现环保与经济效益的双赢,是啤酒企业实现可持续发展的必由之路。在啤酒生产过程中,寻找并应用节能降耗的方法和技术,不仅可以使企业自身受益,而且对社会的可持续发展将具有重要的作用。因此对啤酒酿造车间的能耗分析对于探求节能技术非常有必要。本文首先是数据的预处理,数据的预处理主要除去无效的数据并且对原始数据逐行作差,然后采用主成分分析方法,对原始数据降维。可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。最
2、大程度的保持了原有数据的信息。接着对经过降维处理的数据采用聚类分析的方法进行分类。在聚类分析之后采用模糊方法来对每一类进行建模,这里采用MATLAB模糊逻辑工具箱建立模糊模型,并用SIMULINK验证模型。该方法具有简便、直观、高效的特点。关键词:主成分分析;降维;聚类分析;模糊建模;能耗AbstractBeer industry is very important in the national socio-economic development sectors, high energy consumption of beer companies are the main factors
3、restricting the development of enterprises. Improving energy efficiency, environmental and economic benefits to achieve a win-win, is the beer business the only way to achieve sustainable development.In the beer production process, to find and apply energy saving methods and technology, not only to
4、benefit the enterprises themselves, but also sustainable development of society will have an important role. Therefore the energy consumption of beer brewing workshop to explore energy-saving technologies is very necessary. Firstly, we can use principal component analysis method to reduce the origin
5、al data.This can effectively find the data which is the most major elements and structures, to remove noise and redundancy, the complexity of the original data dimension, revealing hidden behind the simple and complex data structures.Maximum maintained the original data.Then after reducing the dimen
6、sion of the data here had used cluster analysis methods are classified.Here the data were normalized after normalization treatment. After using of fuzzy clustering analysis method to model each class, then we can use fuzzy logic toolbox with MATLAB fuzzy model and using SIMULINK to verify the model.
7、 The method is simple, intuitive and efficient features.Key Words:PCA; Dimension reduction; cluster analysis; Fuzzy Modeling; energy consumption- 2 -目录摘要1Abstract2引言11绪论21.1 课题的研究背景及意义21.2 国内外研究现状21.3 研究内容22 原始数据的预处理42.1 数据预处理的意义42.2 数据预处理的主要方法42.3 数据来源52.4 数据的清理52.5 对简化数据逐行求差53 数据的主成分分析73.1 主成分分析概述
8、73.2 基本思想73.3 主成分分析的数学原理83.4 利用Matlab实现主成分分析103.4.1 主成分分析概述103.4.2 调用Matlab相关函数实现主成分分析113.5 主成分分析结果分析164 数据的分类194.1 聚类分析的概念194.2 聚类分析的数学原理204.2.1 关于衡量样本相似程度的统计量214.3 系统聚类法234.3.1 基本思想234.3.2 聚类模型的建立与求解234.3.3 系统聚类法的步骤254.3.4 系统聚类法的统计量255 基于Matlab的聚类分析285.1 数据的正规化285.2 采用凝聚的层次聚类法对数据进行分区285.3 分区结果285.
9、4 聚类分析小结296 分区结果模糊模型的建立306.1 模糊建模的基本介绍306.2 模糊控制器输入输出的确定306.3 基于MATLAB模糊逻辑工具箱建立模糊模型306.3.1 隶属度函数的建立306.3.2 模糊规则及决策方法366.4 模糊建模小结387 模型的验证与修正39结论41参 考 文 献42附录A主成分分析主成分系数44附录B聚类分析标准化数据46附录C聚类分析第三类处理结果48致谢51北华大学毕业设计(论文)引言随着经济的发展,人民生活水平的提高,人们对于啤酒的消费量日益增长,因此啤酒的生产量也剧增,增长幅度也逐年加大,产量增长速度非常迅猛,由于国家GMP认证实施工作的进行
10、,企业的生产成本明显上升,特别是车间的动力消耗居高不下,能耗分析已经成为过程自动化领域的重要研究方向之一。本文基于聚类模糊方法建立啤酒酿造车间生产能耗模型进而对生产过程进行能耗分析。采用主成分分析方法将过程数据经过标准化处理,从高维数据空间投影到低维特征空间,所得到的特征变量保留了原始数据的特征信息,摒弃了冗余信息,在数据量大、数据维数高、变量间具有相关性的连续过程中,实现生产数据的分析挖掘、精确计算,以便于进一步对数据进行聚类分析。聚类分析是直接比较样本中各指标(或样本)之间的“性质”,将性质相近的归为一类、性质差别较大的归为不同类。衡量指标或样本间性质相近程度的统计量主要分为距离和相似系数
11、两大类。复杂工业过程常常具有强非线性、不确定性、多变量、强耦合以及工况变化频繁等特点,动态特性难于用精确的数学模型描述。1绪论1.1 课题的研究背景及意义啤酒工业是国家社会经济发展的重要产业部门,啤酒企业耗能高是制约企业发展的主要因素。提高资源能源利用效率,实现环保与经济效益的双赢,是啤酒企业实现可持续发展的必由之路。随着经济的发展,人民生活水平的提高,人们对于啤酒的消费量日益增长,因此啤酒的生产量也剧增,增长幅度也逐年加大,产量从1991年的838kL飞速上升到2008年的4103kL(国家统计局,2009)。人均消费量也呈逐年增长的趋势,1991年人均消费量为15L,到2008年已经上升到
12、25.6L,已成为世界啤酒产销大国。与此同时,中国啤酒行业又存在着诸多问题,如生产技术及管理水平相对落后,能源消耗居高不下,化学耗氧量(GCD)产生量为36.25万吨,悬浮物质(SS)产生量为15.23万吨。为实现啤酒行业的可持续发展,针对中国啤酒生产实际情况开展对啤酒酿造车间的能耗分析的研究,对寻求啤酒行业“低耗、高产、少排放”的生态途径,推动循环产业发展具有重要现实意义。而由于国家GMP认证实施工作的进行,企业的生产成本明显上升,特别是车间的动力消耗居高不下,啤酒企业维持正常运行的主要能源是电和蒸汽,电靠外部电网输入,热能主要来自企业内部的锅炉,锅炉的主要燃料是煤。啤酒企业主要耗电的工序有
13、包装、制冷、空压、CO2回收、废水处理、空调以及各种泵、风机和电灯;啤酒企业主要热量消耗工序有:糖化、麦汁煮沸、CIP系统P杀菌、加热流体、洗瓶P洗桶、杀菌以及取暖。我国每生产一吨啤酒耗电50130kWh、耗煤60160kg。啤酒生产中能源的消耗占生产成本比重10%,因此如何降低GMP认证车间的能耗水平,进而提高产品在市场上的赢利空间和竞争力已成为企业迫切需要解决的问题,在啤酒生产过程中,寻找并应用节能降耗的方法和技术,不仅可以使企业自身受益,而且对社会的可持续发展将具有重要的作用。1.2 国内外研究现状目前,国内外一些学者和专家对钢铁、冶金以及水泥行业的物能消耗研究较多,而食品行业的相关研究
14、较少,少数仅限于奶制品等。因此对于啤酒酿造车间的能耗分析非常有必要。 1.3 研究内容鉴于上述问题的重要性,本文首先对原始数据进行预处理,然后采用主成分分析和聚类分析对生产过程中所采集的数据进行降维、分类,进而建立啤酒酿造车间能耗系统模型,并基于此模型来分析车间的工作状态及能耗水平。研究工作拟从以下几个方面开展:(1)原始数据的预处理;(2)数据的降维处理;(3)数据的分类方法;(4)建立能耗分析系统模糊模型。2 原始数据的预处理2.1 数据预处理的意义 现实世界中数据大体上都是不完整,不一致的脏数据,信息多且杂,并且易受噪声数据、空缺数据和不一致性数据的侵扰,无法直接进行数据挖掘,或挖掘结果
15、差强人意。为了提高挖掘结果的质量,使挖掘过程更有效、更容易,由些便产生了数据预处理技术。2.2 数据预处理的主要方法数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。(1) 数据清理首先是处理空缺值,如:要分析某市场的销售和顾客数据,但顾客的income项没有记录,如何处理这类问题:忽略元组,忽略整条记录;人工填写空缺值,根据其它资料手工填写;使用一个全局常量填充空缺值,使所有income项记录都以一个常量(如:2000)填充;使用属性的平均值填充空缺值,取得其它记录中该属性的平均值进行填
16、充;使用与给定元组属同一类的所有样本的平均值,与上面相类似;使用最可能的值填充空缺值,与上面相类似,然后是处理噪声数据;分箱:通过考察周围的值来平滑存储数据的值,有两种方法:按箱平均值平滑,箱中每一个值被箱中的平均值替换;按箱边界平滑,箱中的最大和最小值被视为箱边界,箱中的每一个值被最近的边界值替换;计算机和人工检查结合:即手工处理,最后是处理不一致数据,主要方法是参照其它资料,如纸上记录,人工的加以更正。(2)数据集成即由多个数据存储合并数据。(3)数据变换将数据转换成适用于数据挖掘的形式。(4)数据归约数据挖掘时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来
17、得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并且结果与归约前的结果相同或几乎相同。数据预处理是目前数据挖掘一个热门的研究方面,毕竟这是由数据预处理的产生背景所决定的现实世界中的数据几乎都是脏数据。2.3 数据来源原始数据来自于某啤酒生产企业2009年8月1日至2009年11月11日酿造车间的数据。其中采集时间为每隔3分钟采集一次,共采集23个量,分别为CO2发酵高纯累积流量、CO2发酵累积流量、冰水PLC总流量、大米1_进仓、大米2_进仓、大米3_进仓、倒酒流量累计、发酵车间:正向有功功率、发酵空压累积流量、酵母干燥蒸汽累积流量、冷麦汁累积流量、麦芽仓1_进仓、麦芽仓2_进
18、仓、麦芽仓3_进仓、酿造PLC总流量、酿造去蒸汽累积流量、清酒来自过滤计量、清酒送包装二线流量、清酒送包装一线流量、清酒送桶装线流量、糖化车间:正向有功功率、原料工段:正向有功功率、蒸汽总流量计。2.4 数据的清理经过仔细观察发现原始数据的大米1_进仓、大米2_进仓、大米3_进仓三列始终为零。说明采集数据时大米并没有做为原料进行生产,由此可见此三列数据为无效数据,所以此三列数据直接删除。通过Matlab对数据进行聚类分析时,数据的行数不能太多。为了能够顺利完成聚类分析,这里选取了一周数据进行处理。由于原始数据中存在 无效数据(即excel表中值为横线),对于这些数据根据类型不同分为两种处理方法
19、:1.无效数据附近都为零的采取置零处理;2.无效数据附近大体上符合渐变趋势的,求取该行上下行的均值代替。2.5 对简化数据逐行求差原始数据为每3分钟的采样的累加值。为了使主成分分析结果更加准确,需要确定每一时刻具体的输入值,这里通过一个简单的小程序来实现,程序代码如下:a=data;%data为经过简化处理的数据矩阵,a为求差之后的数据矩阵for i=1:3358%数据矩阵3358行a(i,:)=data(i+1,:)-data(i,:);%逐行作差enda(i+1,:)=;%逐差最后一列为无效值,删之做差之后的数据就可以直接用于后文中的主元分析。3 数据的主成分分析3.1 主成分分析概述主成
20、分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标的的一种多元统计分析方法。在用统计分析方法研究多变量的课题时,变量个数太多会增加课题的复杂性。因此,人们自然希望用较少的综合变量来代替。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。它是在有一定相依关系的n维参数的m个样本值所构成的数据阵列的基础上,通过建立较小数目的综合变量,使其更集中地反映原来 n 维
21、参数中所包含的变化信息。其基本方法是根据数据变化的方差大小来确定变化方向的主次地位,按主次顺序得到各主元素,这些主元素彼此之间是无关的。借助这一工具, 可提炼变化信息,减轻数据分析的复杂程度。能够将多变量相关的高维数据投影到相互独立的低维数据空间,大大降低了直接分析多维复杂过程变量的难度,PCA 可以用来实现数据简化、数据去噪、数据压缩、建模、奇异值检测、变量选择。能充分挖掘出这些数据中隐藏的信息,在过程监控中是一种比较成功的数据挖掘技术。3.2 基本思想主成分分析是设法将原来众多具有一定相关性的(比如p个)指标,重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来
22、 p个指标作线性组合,作为新的综合指标。最经典的做法就是用(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var()越大,表示包含的信息越多。因此在所有的线性组合中选取的应该是方差最大的,故称为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取即选第二个线性组合,为了有效地反映原来信息,已有的信息就不需要再出现在中,用数学语言表达就是要求Cov(,)=0,则称为第二主成分,依此类推可以构造出第三、第四,第p个主成分。3.3 主成分分析的数学原理假设x的采样样本组成的数据阵为X(m n),其中m为样本数目,n为矩阵x中的变量数目,得到的主元为,则有: (3.1) 在式(
23、3.1) 中,系数由下列原则来决定:与( ij;i,j = 1,2,m)相互无关;是, ,的一切线性组合中方差最大者;是与不相关的,所有线性组合中方差最大者; ; 是与,都不相关的, 的所有线性组合中方差最大者。这些新变量指标,分别称为原变量指标,的第一,第二, ,第 m 主成分。其中,的方差在总方差中占的比例最大, ,依次递减。在实际分析中,通常只挑选前几个方差最大的主成分,既可抓住问题实质,同时也简化了系统结构。从以上分析可以看出,找主成分就是确定原来变量 ( j = 1,2 ,p) 在诸主成分( i = 1,2,m)上的载荷( i = 1,2,m ;j = 1,2,p),即分别为, ,的
24、相关矩阵的m个较大的特征值所对应的特征向量。求主元时,需要充分利用数据矩阵X。矩阵X中变量存在着一定程度的线性相关性,将矩阵做主元分解: (3.2)(3.2)式中,为得分向量,它的长度反映了数据矩阵X在方向上的覆盖程度。它的长度越大,X 在方向覆盖程度或者变化范围也就越大。那么负荷向量代表 X 变化的最大方向,与垂直并代表 X 变化的第二大方向,代表 X 最小的方向。当矩阵 X 中的变量间存在一定程度的线性相关时,X 的变化主要体现在最前面的几个负荷向量的方向上,X 的最后几个投影比较小的负荷向量,可以写成残差矩阵E,主要由噪声引起,往往可以忽略,起到减少噪声影响的效果,不会引起数据中有用信息
25、的明显损失。做主成分分析时,一般分为以下几步实现步骤:对原始数据作标准化处理,使得每个指标的平均值为 0,方差为 1;对标准化后的数据对其进行数据分析,计算数据协方差矩阵;计算数据协方差矩阵的特征值,并使其按大小顺序排列,即;再分别求出对应于特征值的特征向量;计算主成分贡献率及累计贡献率,使累计贡献率达到95 %以上,这时用l个主成分代替原n个变量,不会损失很多信息;根据数据矩阵分析出的主成分变量,确定主元模型;作出各变量主元的贡献图。数据标准化和协方差矩阵分解: i=1,2, ,l; j=1,2, ,p (3.3) (3.4)式中,为矩阵X第 i 列的平均值; 为矩阵 X 第 j 列的平均值
26、由统计学的基本定理我们知道,X 是方差矩阵的一个无偏估计量: (3.5)引入拉格朗日乘子代表过程信号 X 斜方差矩阵 (实际上是的无偏估计矩阵 S,习惯上用表示,下同) 的最大特征值,为与相对应的特征向量,过程信息的第一个主元得分向量。同理可知,对于主元 (3.6) 主元方向矢量分别对应于过程信息协方差矩阵的第k个特征值的特征向量。通过过程信息协方差矩阵进行奇异值分解即可获得由特征向量所组成的矩阵 P。令: (3.7)显然矩阵p为正交阵,并有。通过过程信息协方差矩阵进行奇异值分解即可获得由特征向量所组成的矩阵P。由此,联立以上各式,可得出过程的主元子空间信息矩阵T = XP。3.4 利用Mat
27、lab实现主成分分析3.4.1 主成分分析概述MATLAB是当今国际上科学界 (尤其是自动控制领域)最具影响力,也是最有活力的软件。它起源于矩阵运算,并已经发展成一种高度集成的计算机语言。它提供了强大的科学运算、灵活的程序设计流程、高质量的图形可视化与界面设计、与其他程序和语言的便捷接口的功能。MATLAB 语言在各国高校与研究单位起着重大的作用。主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。在软件Matlab中实现主成分分析可以采取两种方式实现:一是通过编程来实现;二是直接调用Matlab中自带程序实现。本文通过直接调用Matlab中
28、的程序以实现主成分分析:coef,score,latent,t2 = princomp(X);式中:X为输入数据矩阵 (一般要求nm)输出变量:coef主成分系数:即原始数据线性组合生成主成分数据中每一维数据前面的系数。coef 的每一列代表一个新生成的主成分的系数。比如你想取出前三个主成分的系数,则如下可实现:pca3 = coef(:,1:3);scores是主分量下的得分值;即原始数据在新生成的主成分空间里的坐标值,得分矩阵与数据矩阵X的阶数是一致的; latent一个列向量,由X的协方差矩阵的特征值组成;容易计算方差所占的百分比percent_explained= 100*latent
29、/sum(latent);t2表示检验的t2-统计量,是一种多元统计距离,记录的是每一个观察量到中心的距离(方差分析要用)。3.4.2 调用Matlab相关函数实现主成分分析l 原始数据表头文件也作为数据参与处理,做一个字符串型数组,代码如下:categories=char(CO2发酵高纯累积流量,CO2发酵累积流量,冰水PLC总流量,倒酒流量累计,发酵车间:正向有功功率,发酵空压累积流量,酵母干燥蒸汽累积流量,冷麦汁累积流量,麦芽仓1_进仓,麦芽仓2_进仓,麦芽仓3_进仓,酿造PLC总流量,酿造去蒸汽累积流量,清酒来自过滤计量,清酒送包装二线流量,清酒送包装一线流量,清酒送桶装线流量,糖化车
30、间:正向有功功率,原料工段:正向有功功率,蒸汽总流量计);l 对数据获得一个初步的可视化印象:Matlab可以方便的绘制出数据的基本分布图,这里绘制的是经过逐行作差处理过的数据的数值分布,这里可以清楚的看到具体每一维的数值分布。代码如下:clear;clcboxplot(a,orientation,horizontal,labels,categories)绘制图片如下: 图3.1 数据数值分布图l 经过观察发现,原始数据有二十维变量,不同变量具有不同的量纲,为了消除其可能带来的不合理影响,首先要对原始数据进行标准化处理,得到标准化矩阵 x: x=zscore(a); l 调用princomp函
31、数对矩阵x进行处理: coefs,scores,variances,t2 = princomp(x); (3.8)l 前八个主成分系数矩阵: C8 = coefs(:,1:8)处理结果见附录A。上面所得到的系数矩阵的每一列实际上即为所得主成分的系数矩阵。即:第一主成分:=0.3044+0.3069+0.3002第二主成分:=-0.0989-0.0158+-0.1227 第八主成分:=0.0124-0.0019+-0.0620其中 分别代表原来二十个因子,为所得的主成分。l Scores矩阵的前二列显示出了x矩阵(标准化处理之后的数据)的主成分得分,绘制出它们的数值分布图:plot(scores
32、(:,1),scores(:,2),+)xlabel(第一主成分)ylabel(第二主成分) 图3.2 前两主成分分布l variances是score对应列的方差向量,即x协方差矩阵的特征值:variancesvariances = 10.4459 2.8053 1.7788 1.0238 1.0065 0.9398 0.7107 0.6019 0.5085 0.1290 0.0319 0.0098 0.0045 0.0015 0.0008 0.0005 0.0004 0.0001 0.0001 0.0000l 计算每个特征值(即第N个主分量)所占的百分比:percent_explained
33、 = 100*variances/sum(variances)percent_explained = 100*variances/sum(variances)percent_explained = 52.2297 14.0266 8.8942 5.1189 5.0327 4.6988 3.5537 3.0093 2.5426 0.6452 0.1597 0.0488 0.0227 0.0076 0.0041 0.0025 0.0019 0.0006 0.0004 0.0001 l 每个主成分所占比例可视化:图3.3的线表示的累积变量解释程度;如图3.3所示,前八个主成分可以表示出原始数据的95
34、%;所以在95%的意义下只需提取前八个主成分即可,进而达到主成分提取的目的。pareto(percent_explained)xlabel(主成分)ylabel(所占比例(%)图3.3 主成分可视化l 结果可视化:图3.4中横坐标和纵坐标分别表示第一主成分和第二主成分;红色的点代表3358个观察量,其坐标就是scores矩阵;蓝色的向量的方向和长度表示了每个原始变量对新的主成分的贡献,其坐标就是coef矩阵(scores和coef见公式3.8); biplot(coefs(:,1:2), scores,scores(:,1:2),. varlabels,categories);axis(-.2
35、6 1 -.51 .51); 图3.4 主成分分析结果3.5 主成分分析结果分析主成份的意义主要由线性组合中系数较大的几个原指标的综合意义来决定,并且本文将依据主成分分析结果对系统进行建模。首先,应当确定模型的输入与输出,冷麦汁累积流量,清酒来自过滤计量,清酒送包装二线流量,清酒送包装一线流量,清酒送桶装线流量为啤酒酿造过程中的产量因素,故此以此五维数据作为模型的输出因子。因此,这里我们求出这几个因子所占每个主成分因子的权重,以确定哪些主成分作为输出,哪些主成分作为输出。由于主成分系数矩阵含有负数,所以应取其绝对值,然后再计算权重。具体结果如下:第一主成份中冷麦汁累积流量,清酒来自过滤计量,清
36、酒送包装二线流量,清酒送包装一线流量,清酒送桶装线流量,所占系数矩阵中所有因子的百分比为3.8%。第二主成份中冷麦汁累积流量,清酒来自过滤计量,清酒送包装二线流量,清酒送包装一线流量,清酒送桶装线流量五个因子所占系数矩阵所有因子的百分比为4.6%。第三主成份中冷麦汁累积流量,清酒来自过滤计量,清酒送包装二线流量,清酒送包装一线流量,清酒送桶装线流量五个因子所占系数矩阵所有因子的百分比为59.2%。第四主成份中冷麦汁累积流量,清酒来自过滤计量,清酒送包装二线流量,清酒送包装一线流量,清酒送桶装线流量五个因子所占系数矩阵所有因子的百分比为66.2%。第五主成份中冷麦汁累积流量,清酒来自过滤计量,清
37、酒送包装二线流量,清酒送包装一线流量,清酒送桶装线流量五个因子所占系数矩阵所有因子的百分比为48.4%。第六主成份中冷麦汁累积流量,清酒来自过滤计量,清酒送包装二线流量,清酒送包装一线流量,清酒送桶装线流量五个因子所占系数矩阵所有因子的百分比为72.1%。第七主成份中冷麦汁累积流量,清酒来自过滤计量,清酒送包装二线流量,清酒送包装一线流量,清酒送桶装线流量五个因子所占系数矩阵所有因子的百分比为56.6%。第八主成份中冷麦汁累积流量,清酒来自过滤计量,清酒送包装二线流量,清酒送包装一线流量,清酒送桶装线流量五个因子所占系数矩阵所有因子的百分比为48.6%。综上可得,第六主成分可以作为系统的输出,
38、其它七个主成分作为输入。主成分分析处理后已经实现了数据降维的功能,原始数据得到了很大程度的简化,使原来的二十维数据简化为八维(即所得到的得分矩阵)。此score矩阵已经集中了95%原始数据的特征。后文将为对其进行聚类分析,对其进行进一步分类,挖掘其内在特征,然后进行模糊建模。后文聚类分析的数据为下面所求得的m矩阵: m=scores(:,1:8);4 数据的分类4.1 聚类分析的概念分类学是人们认识世界的基础科学,而聚类分析(Cluster Analysis)是研究“物以类聚的多指标统计分析方法,主要用于对事物类别的面貌尚不清楚、甚至连总共几类都不能确定的情形下分类问题的研究。进行聚类分析时,
39、事先不必知道分类对象的分类结构,而是根据事物本身的数据特征,按事物之间某种近似程度进行分类。该方法实用性强,特别在依据多指标数据对观察对象进行分类时效果颇佳。聚类分析依分类对象的不同可分为两类:对观察样本(观测)的样品聚类分析法和对观察指标(变量)的变量聚类分析法。由于客观事物本身的复杂性以及与其他事物联系的广泛性,样品常常需要很多的指标变量来完整描述它的性状,这些指标变量之间存在不同程度的相关性或相似性,变量聚类分析法对这些观察指标进行分类处理,可用于了解指标间的关系,对指标进行分类,并根据分类结果及其关系选择典型性变量,进行进一步的统计分析(如回归分析)或样品聚类分析。样品聚类分析法是对观
40、察样本的分类处理,实际中这样的聚类问题很多,下面主要分析这种聚类分析法。聚类分析是直接比较样本中各指标(或样本)之间的“性质”,将性质相近的归为一类、性质差别较大的归为不同类。衡量指标或样本间性质相近程度的统计量主要分为距离和相似系数两大类。距离一般用于对样本的分类,其定义有很多,如绝对值距离、欧氏距离、明考夫斯基距离、切比雪夫距离等。聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析的目的是把分类对象按照一定的规则分成若干类,这些类不是事先给定
41、的,而是根据数据的特征确定的,对类的数目和类的结构不必作任何假定。聚类分析依赖于对观测间的接近程度(距离)或相似程度的理解,定义不同的距离量度和相似性量度就可以产生不同的聚类结果。聚类分析的内容十分丰富,按其聚类的方法可分为:系统聚类法,动态聚类法,有序样品聚类法,模糊聚类法,图论聚类法,聚类预报法。4.2 聚类分析的数学原理假设聚类问题中有n个样本:xi(i=l,2,n),每个样本有m个属性因子,第i个样本的第j个属性因子记为:,则n个样本可排成样本数据矩阵: (4.1)由于各属性因子表示样本中的各种性质,往往使用不同的度量单位,其观测值可能相差悬殊,为了确保各属性因子在分析中的地位相同,要
42、对数据进行正规化处理。经过正规化处理后,可将所有样本的各属性因子的数值都转换为Ol之间的数值,这里采用的正规化处理方法如下:均值: j=1,2m (4.2) 误差平方和聚类准则:把,中的各样本X与均值间的误差平方和对所有类相加后为: (4.3)标准化:中心化后的数据除以该因子的标准差: i=1,2n (4.4)规格化:求原始数据矩阵的极差: (4.5)4.2.1 关于衡量样本相似程度的统计量研究样本间的关系,需选择一个能反映研究对象之间的亲疏关系的合适的统计量,即反映样本间相似程度的统计量。根据这个量的大小形成分类系统。(1)距离系数把样本每个个体看作是空间中的一个点,通过计算空间中两点之间的距离,来衡量接近程度,是一种用于描述样本值贴近的统计量,值越小表示样本越贴近。最常见的距离系数有明考斯基(Minkowski)距离: (4.6)当q=l时,为海明距离或绝对距离: (4.7) 当q=2时,为欧氏距离: (4.8) 当q时,为车贝晓夫(chebyshev)距离: (4.9) 明氏距离定义简明,计算简单,在实际中用得很多,但存在以下三个缺点:明氏距离的值与各指标的量纲有关使得该距离的实际意义难以说清;明氏距离把各个指标都