基于主元分析和模糊聚类的浮选过程的数据预处理.doc

上传人:laozhun 文档编号:2396172 上传时间:2023-02-17 格式:DOC 页数:32 大小:541KB
返回 下载 相关 举报
基于主元分析和模糊聚类的浮选过程的数据预处理.doc_第1页
第1页 / 共32页
基于主元分析和模糊聚类的浮选过程的数据预处理.doc_第2页
第2页 / 共32页
基于主元分析和模糊聚类的浮选过程的数据预处理.doc_第3页
第3页 / 共32页
基于主元分析和模糊聚类的浮选过程的数据预处理.doc_第4页
第4页 / 共32页
基于主元分析和模糊聚类的浮选过程的数据预处理.doc_第5页
第5页 / 共32页
点击查看更多>>
资源描述

《基于主元分析和模糊聚类的浮选过程的数据预处理.doc》由会员分享,可在线阅读,更多相关《基于主元分析和模糊聚类的浮选过程的数据预处理.doc(32页珍藏版)》请在三一办公上搜索。

1、基于主元分析和模糊聚类的浮选过程的数据预处理摘要随着信息时代的来临,人类在各种领域中面临着越来越多的数据信息,与此同时,这些数据的规模还在以惊人的速度不断增长。鉴于主元分析法的降维特性和模糊C-均值聚类算法良好的分类性能,本文针对反浮选过程的被控对象复杂、数学模型不确定以及控制要求高等特点,提出一种基于主元分析和模糊聚类的数据预处理算法。采用模糊C-均值聚类算法得到聚类中心,然后进行线形回归从而对过程变量数据进行了预处理。主元分析法则用来进行辅助变量的选取和输入高维向量降维简化。在保留原有信息的基础上,去除了冗余数据,加快了聚类速度,在实现对模型的输入简化以及输入数据的故障诊断,为过程建模、先

2、进控制和优化控制等打好基础。然后针对主元变量采用径向基函数网络建立了系统经济技术指标的预测模型。根据工业实际生产数据进行的模型校验和误差分析表明,能够满足浮选过程控制的精度要求。关键词:数据预处理;模糊C均值聚类;主元分析;浮选过程Data Pretreatment of Flotation Process Based on Principal Component Analysis and Fuzzy C-means ClusteringAbstractWith the coming of information age, human are confronted with increasin

3、g data and information in different fields. At the same time, these data are developing in surprisingly speed. A data pretreatment algorithm based on principal component analysis and fuzzy c-means clustering for flotation process is proposed in this paper. Linear regression of clustering centers gai

4、ned by fuzzy c-means clustering algorithm is introduced to carry through data pretreatment. The paper adopts principal component analysis to select the primary variables and reduce dimensions of input vectors. By dong so, original information is kept down and redundant information is removed, which

5、builds up the foundation for process modeling, advanced control technology and optimized control, and so on. Then the paper uses radial basis function network to set up the prediction model of economy and technology index in flotation process aiming at principal component variables. Model verificati

6、on presented by using real operating data from industrial experiments indicates that the models precision is good enough to satisfy the request of floatation process control.Keywords: Data pretreatment; Fuzzy C-means clustering (FCM); Principal component analysis (PCA); Flotation process目 录摘要IAbstra

7、ctII1 绪论11.1 研究背景11.2 数据预处理技术的研究22 模糊C-均值聚类算法42.1 模糊C-均值简介及算法分析42.2 模糊C-均值聚类算法的实现原理52.3 FCM聚类算法的一般步骤62.4 数据预处理结果63 基于主元分析的数据预处理93.1 引言93.2 主元分析基本思路93.3 基于主元分析的数据降维113.4 基于PCA-RBF的浮选过程软测量模型143.4.1 RBF神经网络的学习算法143.4.2 RBF神经网络模型的训练和测试17结 论19致 谢20参考文献21附录221 绪论1.1 研究背景浮选是依据物质(如离子、分子、胶体、固体颗粒、悬浮微粒)因其表面活性的

8、不同,可被吸附和粘附在从溶液中提升的泡沫的表面上,从而与母液分离,从矿浆中借助汽泡的浮力来选、分矿物的方法。浮选作为一种工业规模选矿技术的出现,在国外大约是在9世纪末叶,当时西方国家工业发展迅速,急需更多的矿物原料。为了能从以前大量堆积的冲选废弃尾矿中回收有用金属矿物,以及能较有效的从细粒浸染的贫矿或从组成较复杂的多金属矿石中选出精矿产品,浮选法才开始在工业上出现,并不断得到发展的完善。特别是近几十年来,由于成功地找到了许多新的浮选剂(首先是表面活性物质)以及近代工业的迅速发展,浮选工业亦随之获得长足的进步。建国50多年来,伴随着共和国成长的脚步,我国的浮选技术从无到有、由弱到强,走过了一条充

9、满艰辛与坎坷的道路,同时也取得了许多令人瞩目的辉煌成就。近些年来,我国浮选技术的发展更是突飞猛进、一路高歌,大量拥有自主知识产权、占领世界浮选技术制高点的重大科技成果不断涌现,对我国乃至世界浮选技术的迅猛发展起到了积极的推动作用。浮选与其他选矿方法一样,要做好选别前的物料准备工作,即矿石要经过磨矿分级,达到适宜于浮选的浓度细度。此外,浮选还有以下几个基本作业:1矿浆的调整与浮选药剂的加入其目的是要造成矿物表面性质的差别,即改变矿物表面的润湿性,调节矿物表面的选择性,使有的矿物粒子能附着于气泡,而有的则不能附着于气泡。2搅拌并造成大量气泡借助于浮选机的充气搅拌作用,导致矿浆中空气弥散而形成大量气

10、泡,或促使溶于矿浆中的空气形成微泡析出。3气泡的矿化矿粒向气泡选择性的附着,这是浮选过程中最基本的行为。4矿化泡沫层的形成与刮出矿化气泡由浮选槽下部上升到矿浆面形成矿化泡沫层,有用矿物富集到泡沫中,将其刮出而成为精矿(中矿)产品。而非目的矿物则留在浮选槽内,从而达到分选的目的。通常浮选作业浮起的矿物是有用矿物,这样的浮选过程称之为正浮选,反之,浮起的矿物为脉石,则称之为反浮选(或称逆浮选),当前在工业控制和许多其它的应用领域,建立系统的模型是非常重要的一个步骤,而目前常用的建模方法主要有三种:机理建模方法、辨识建模方法和智能建模方法。然而由于浮选过程是一个物理化学综合反应过程,具有严重的非线性

11、、分布参数、强耦合和时滞性等特点,都给上述的前两种传统方法建模带来了困难。近年来,神经网络作为智能建模方法的代表,以其强大的非线性拟合能力、并行信息处理能力和自学习能力,而得到越来越多的应用。但神经网络建模所需要的信息全靠从训练样本中得到,这就决定了建模效果的好坏依经赖于样本的数量和质量,因此对样本数据的预处理就显得非常重要。因此本文采用模糊C均值聚类算法对浮选过程变量数据进行预处理,先得到数据的整体趋势,然后基于聚类点用线性回归得到数据的趋势,进行平移变换后,将在区间以外的数据作为错误数据剔除;主元分析法则用来进行浮选过程的经济技术指标(精矿品位和浮选回收率)软测量模型的辅助变量的选取和输入

12、高维向量的降维简化。最后结合选矿厂的生产历史数据,针对主元变量采用径向基函数网络建立了系统济技术指标的预测模型,对精矿品位和浮选回收率的预测进行了研究,仿真结果表明软测量模型的有效性,这对稳定浮选过程,提高铁精矿产品质量,改善炼铁各项技术经济指标,提高钢铁企业整体经济效益具有非常重要的意义。1.2 数据预处理技术的研究随着信息时代的来临,人类在各种领域中面临着越来越多的数据信息,与此同时,这些数据的规模还在以惊人的速度不断增长。因此,为了提高工作效率和生活质量,人们必须获取蕴藏在这些数据中的有价值信息。为了达到这个目的,人们开始致力于从数据库中挖掘知识的研究。然而,众所周知,数据库中往往存在冗

13、余数据、缺失数据、不确定数据和不一致数据等诸多情况,这些数据成了发现知识的一大障碍。因此,在从数据库中挖掘知识之前必须对数据进行预处理。数据预处理的主要任务1:1数据清洗:如填补缺失数据、消除噪声数据等。数据清洗的原理就是通过分析“脏数据”的产生原因和存在形式,利用现有的技术手段和方法去清洗“脏数据”,将“脏数据”转化为满足数据质量或应用要求的数据,从而提高数据集的数据质量。2数据集成:将所用的数据统一存储在数据库、数据仓库或文件中形成一个完整的数据集,这一过程要消除冗余数据。 3数据转换:主要是对数据进行规格化(Normalization)操作,如将数值限定在特定的范围之内。对于某些挖掘模式

14、,需要数据满足一定的格式,数据转换能把原始数据转换为挖掘模式要求的格式,以满足挖掘的需求。4数据归约:把那些不能够刻画系统关键特征的属性剔除掉,从而得到精练的并能充分描述被挖掘对象的属性集合。对于需要处理离散型数据的挖掘系统,应该先将连续型的数据量化,使之能够被处理。数据预处理出于以下几种需要:(1)为减少后续搜索的复杂度进行的数据预处理(2)为把规则搜索集中在感兴趣模式的搜索上,以避免生成太多的难以理解,难以后续处理的模式。(3)为了方便于应用后续数据挖掘算法而做的数据预处理。(4)根据问题的要求和性质,对数据进行某些变换、转化或简化以提高数据挖掘效率,但不影响挖掘到的知识的可靠性或这种影响

15、微不足道。总之,数据挖掘预处理是根据选择的数据挖掘的目标、对应用领域经过充分理解后通过对数据进行适当的处理以便达到高效挖掘感兴趣模式的目的。2 模糊C-均值聚类算法2.1 模糊C-均值简介及算法分析 聚类分析是多元统计分析的一种,也是无监督模式识别的一个重要分支,在模式分类 图像处理和模糊规则处理等众多领域中获得最广泛的应用。它把一个没有类别标记的样本按照某种准则划分为若干子集,使相似的样本尽可能归于一类,而把不相似的样本划分到不同的类中。硬聚类把每个待识别的对象严格的划分某类中,具有非此即彼的性质,而模糊聚类建立了样本对类别的不确定描述,更能客观的反应客观世界,从而成为聚类分析的主流。 模糊

16、聚类算法是一种基于函数最优方法的聚类算法,使用微积分计算技术求最优代价函数,在基于概率算法的聚类方法中将使用概率密度函数,为此要假定合适的模型,模糊聚类算法的向量可以同时属于多个聚类,从而摆脱上述问题。 模糊聚类分析算法大致可分为三类21)分类数不定,根据不同要求对事物进行动态聚类,此类方法是基于模糊等价矩阵聚类的,称为模糊等价矩阵动态聚类分析法。 2)分类数给定,寻找出对事物的最佳分析方案,此类方法是基于目标函数聚类的,称为模糊C均值聚类。3)在摄动有意义的情况下,根据模糊相似矩阵聚类,此类方法称为基于摄动的模糊聚类分析法我所学习的是模糊C均值聚类算法,要学习模糊C均值聚类算法要先了解虑属度

17、的含义,隶属度函数是表示一个对象x隶属于集合A的程度的函数,通常记做A(x),其自变量范围是所有可能属于集合A的对象(即集合A所在空间中的所有点),取值范围是0,1,即0=A(x)1。对于m,它是一个控制算法的柔性的参数,如果m过大,则聚类效果会很次,而如果m过小则算法会接近HCM聚类算法。算法的输出是C个聚类中心点向量和C*N的一个模糊划分矩阵,这个矩阵表示的是每个样本点属于每个类的隶属度。根据这个划分矩阵按照模糊集合中的最大隶属原则就能够确定每个样本点归为哪个类。聚类中心表示的是每个类的平均特征,可以认为是这个类的代表点。从算法的推导过程中我们不难看出,算法对于满足正态分布的数据聚类效果会

18、很好,另外,算法对孤立点是敏感的。聚类算法是一种比较新的技术,基于曾次的聚类算法文献中最早出现的Single-Linkage层次聚类算法是1957年在Lloyd的文章中最早出现的,之后MacQueen独立提出了经典的模糊C均值聚类算法,FCM算法中模糊划分的概念最早起源于Ruspini的文章中,但关于FCM的算法的详细的分析与改进则是由Dunn和Bezdek完成的。模糊c均值聚类算法因算法简单收敛速度快且能处理大数据集,解决问题范围广,易于应用计算机实现等特点受到了越来越多人的关注,并应用于各个领域。2.2 模糊C-均值聚类算法的实现原理聚类是将一个数据集划分为若干组,使得组内相似性大于组间相

19、似性,是对数据合理进行组织和分类的有效技术。聚类方法能够去除冗余数据,剔除掉原始数据中的过失误差,降低随机误差对采样值的影响,有助于体现数据的趋势。本文应用模糊C均值(FCM)聚类方法对采集到的浮选过程数据进行预处理,先得到数据的整体趋势,然后基于聚类点用线性回归得到数据的趋势,进行平移变换后,将在区间以外的数据作为错误数据剔除。实际应用表明,与直接进行线性回归法相比,采用聚类预处理后再进行回归法能够更好的找到数据的趋势。模糊C均值聚类(FCM)算法3,4是将特征空间中的特征点分为类,第类的聚类中心用表示,其中任意特征点属于第类的隶属度,且满足如下条件: (2.2) (2.3) 非相似指标的目

20、标函数为: (2.4)其中,为模糊化程度常数,该目标函数实际表征了各类特征点到聚类中心的加权距离平方和,其值越小,表明各类中样本点依附于它们的聚类中心就越紧密。聚类问题就是求使(2.4)式最小的隶属度矩阵及类别中心。2.3 FCM聚类算法的一般步骤随机的初始化并根据公式(2.4)计算;令迭代次数,选择聚类中心个数,并指定指数权重; (2.5)给定,根据公式(2.5)计算聚类中心; (2.6)给定聚类中心,根据公式(2.5)重新计算隶属度矩阵;根据公式(2.4)计算目标函数,如果小于给定阈值,则迭代停止,否则令,转向步骤(2.3)。2.4 数据预处理结果根据浮选过程工艺的生产经验,分别以给矿品位

21、、给矿流量、给矿粒度、给矿浓度、精矿品位和浮选回收率对药剂流量先进行模糊C均值聚类,聚类中心个数选为2,然后以这两点进行线性回归,以回归后所得直线进行一定平移后得到了置信区间,区间外的数据作为误差予以剔除。图2.1和图2.2分别为给矿品位和浮选回收率针对药剂流量的处理结果图。(a)(b)图2.1 基于给矿品位-药剂流量的数据预处理(a)(b)图2.2 基于浮选回收率和药剂流量的数据预处理3 基于主元分析的数据预处理3.1 引言精矿品位和浮选回收率等经济技术指标是浮选生产工艺的关键控制指标,然而操作时只能依据离线分析值进行调节,时滞很大,难以实现直接质量闭环控制。推断估计(软测量)技术能够有效解

22、决难于在线测量过程质量指标的估计问题。浮选过程具有非线性、分布参数、强耦合和时滞性等特点,由机理分析或实验法得到过程软测量模型十分困难。基于上述原因,本章针对浮选过程提出主元分析(PCA)法与RBF神经网络相结合的经济技术指标软测量模。首先依据工艺机理和经验知识对过程变量进行初选,然后运用主元分析法在众多相关浮选过程检测变量中对网络高维输入向量进行辅助变量精选和降维简化。再运用基于最近邻聚类算法(Nearest Neighbor ClusteringAlgorithms)的RBF神经网络对提取出的PCA主成分与浮选过程精矿品位和浮选回收率进行非线性建模。结合选矿厂生产历史数据进行仿真的结果表明

23、经济技术指标(精矿品位和浮选回收率)软测量模型的有效性,这对稳定浮选过程,提高铁精矿产品质量,改善炼铁各项技术经济指标,提高钢铁企业整体经济效益具有非常重要的意义。多变量统计过程控制MSPC源于统计过程控制SPC,主要应用领域是连续生产过程。主元分析PCA是MSPC方法的基本数学工具,它的特点是通过多元统计投影用少量隐变量来表示多个相关变量的动态信息,可用来建模。主元分析法(PCA)是目前基于多元统计过程控制的故障诊断技术的核心,是基于原始数据空间,通过构造一组新的潜隐变量来降低原始数据空间的维数,再从新的映射空间抽取主要变化信息,提取统计特征,从而构成对原始数据空间特性的理解。新的映射空间的

24、变量由原始数据变量的线性组合构成,从而大大降低了投影空间的维数。由于投影空间统计特征向量彼此正交,则消除了变量间的关联性,简化了原始过程特性分析的复杂程度。3.2 主元分析基本思路主元分析法的基本思路是:寻找一组新变量来代替原变量,新变量是原变量的线性组合。从优化的角度看,新变量的个数要比原变量少,并且最大限度地携带原变量的有用信息,且新变量之间互不相关。其内容包括主元的定义和获取,以及通过主元的数据重构。假设 X 是一个nm 的数据矩阵,其中第一列到第 m 列对应为变量到变量。 设存在一列向量,且,那么叫做X的标准化线性组合(Standardized Linear Combination,简

25、记为 SLC)。在实际分析中,一般将每个变量的均值从X中去掉,只考虑其变化部分。矩阵X的主元具有以下特性:特性1:第个得分向量的方差为。特性2:X的任何一个标准化线性组合的方差都不会大于。特性3:如果是X的一个标准化线性组合,并且与X的前k个主元不相关,那么当是X的第(k+1)个主元时,的方差将会最大。特性4:由X的前k个主元组成的子空间(1 k m)与X的均方距离比由任何其他k个向量组成的子空间到X的均方距离要小。矩阵X的协方差矩阵的前k个特征值的和除以它的所有特征值的和,被称为X的前k个主元的累计贡献率,它表示了前k个主元所解释的数据变化占全部数据变化的比例。数据矩阵X的主元随X中变量所用

26、尺度的变化而变化。在生产过程中采集的数据一般都有相应的物理单位。同一变量可以采用不同的单位。当对同一变量采用不同单位进行测量时,将会得到不同的数据。在对同一过程中因单位制不同而得到的不同数据进行主元分析时,所得到的结果将会是不一样的。在实施多变量统计控制时,需要建立一个反映过程正常运行的主元模型。将反映过程正常运行的历史数据收集起来,对这些数据进行主元分析,建立主元模型。 由于主元分析的结果受数据尺度的影响,因此在进行主元分析时,需要先将数据进行标准化,即将每个变量的均值减掉以后除以它的标准差。假设为收集的过程正常运行数据,先将X做如下标准化: (3.1)其中为变量 X 的均值,为变量的标准差

27、。标准化:第一步是每个变量减去样本均值,因为我们的目的是获取每个数据相对于平均值的变化量。第二步是把经均值中心化处理后的数据的每个变量除以它的标准差。这一步把每个变量标定到单位方差,确保变化大的过程变量不会占主导地位。 为了最优地获取数据的变化量,同时最小化随机噪声对PCA表示的影响,与k个最大奇异值相对应的负荷向量被典型地保留。如果可以用前k(km)个主元来代表数据中的主要变化。这个主元模型在时刻的平方预测误差(SPE,Squared Prediction Error)可以写: (3.2)其中,为 时刻第个变量的测量值,为 时刻第个变量的主元模型预测值。综上所述,PCA 的三个属性总结如下:

28、1PCA 可以产生数据的低维表示,与用全维观测空间相比,可以更好地推广到独立于训练集的数据,从而提高检测和诊断故障的效率。2不论是造成故障的变量,还是严重受故障影响的变量,用 PCA 提取的结构都可以有效地对它们进行识别。3PCA 能够把观测空间分离成一个获取过程的系统趋势的子空间,和一个基本上包含随机噪声的子空间。因为某些故障主要影响两个子空间中的一个,所以可以用一种方法针对一个子空间,用另一种方法针对另一个子空间,这样可以从总体上提高过程监控方案的灵敏度。通常认为,并且在某些假设下也可以从理论上证实,PCA空间中与较大奇异值相对应的部分描述了过程中所产生的大部分系统的或状态的变化,与较小奇

29、异值对应的PCA空间的那部分则描述了随机噪声。通过适当确定在 PCA 模型中保留的负荷向量的数目k,系统变化就可以从随机变化中解耦,从而可以把两种类型的变化分开监控。3.3 基于主元分析的数据降维在实际生产中,为了全面分析问题常常提出许多与输出有关的变量,每个变量都在不同程度上反映了过程的某些信息,但往往它们之间有一定的相关关系,太多相关变量构成的高维数据空间使建模问题复杂化。所以基于这个特点,在进行建模前,通过PCA方法找出几个公共的支配因素,最大限度保留有用信息,滤去冗余信息,然后按主元贡献率选取合适的主元数目进行过程建模,将会大大简化模型结构和建模工作量。PCA模型的建立需要一个来自正常

30、工况的数据集作为建模数据。假设由个过程变量、个数据向量样本组成检测数据矩阵。为了避免过程变量不同量纲对结果的影响和便于数学上的处理,有必要对数据进行归一化处理。设的均值向量为,标准差向量为,则归一化后的过程变量为: (3.3)记归一化后的过程变量向量为,的协方差矩阵为;具体的讲对进行主元分析,PCA算法5的主要步骤可以概括为下面几步:1) 计算协方差矩阵的个特征值和对应的单位化正交特征向量;2) 计算第个主元: (3.4)3) 计算主元模型: (3.5)式中:称为得分向量或主元;称为负荷(loading)向量,为矩阵的协方差矩阵由大到小排列的第个特征根所对应的特征向量,包含各变量之间相互关联的

31、信息。每一对,都是按相应于特征向量的特征值的降幂排列,其中第一对截获了所有分解的负荷向量和主元向量对中最大的信息量,其余以次类推。为得分矩阵,为负荷矩阵,则上式可写为矩阵形式: (3.6)4) 计算前个主元的方差贡献率: (3.7)接下来要确定PCA模型所用的主元个数。经验指出,由于过程变量之间存在高相关性,一般前个主元的累计贡献率超过85%就认为个主元反映了过程的主体信息。确定的方法可以用经验法,即取使得,或者采用交叉有效性检验方法。本文采用的方法为经验法。5) 在矩阵中选出相应于主元的个向量,做为训练的样本数据。对由软测量模型的输入(给矿品位、给矿流量、给矿浓度、给矿粒度和药剂流量)组成的

32、历史数据进行主元分析,分析结果如表3.1所示,可以看出3个主元就可表示85%以上的数据变化,采用原始数据经FCM和PCA处理后的主元变量作为RBF神经网络模型的输入,既保留了原始变量的特征信息,又简化了神经网络结构,使得RBF网络的许多优点得以充分发挥。 利用主元分析方法6,可以将由输入变量构成的矩阵x分解为若干个主元:= (3.8)式中:假设x的主要变化可以用x的主元来解释,E代表忽略掉其他几个小的主元而引起的误差,通常E主要代表测量噪声。因为x的前个主要代表了x数据中的绝大多数变化,因此可以用x的前忌个主元来代替那些原始输入变量进行回归分析,这样便得到下面的主元回归模型(PCR): (3.

33、9)式中:B=为主元回归模型参数。可以利用最小二乘方法通过下式计算而得到 (3.10) 由于主元之间是正交的,所以式(3.10)的计算不会出现由于矩阵奇异而引起的问题。由于,式(3.10)还可以写成: (3.11) 从式(3.11)可以看到,是采用原始变量作为输入变量的模型的参数。利用式(3.11), 可以写成: (3.12)式(3.12)即为通过主元回归模型得到的模型参数的计算式。主元回归解决了由于输入变量间的线性关系所引起的计算问题。同时,由于忽略掉那些次要的主元,还起到了抑制测量噪声对模型参数影响的作用。在主元回归模型中通常可以采用交叉检验的方法来选取主元个数,一部分用来建立主元回归模型

34、,另一部分用来检验所建立的主元回归模型。通过保留不同数目的主元,建立若干主元回归模型,然后在检验数据上测试这些模型,并从中选取在检验数据中测试误差最小的那个主元回归模型。主元回归可以消除因变量间的线性相关性而引起的问题,从而得到符合实际情况的真正模型。表3.1 不同主元个数的累计贡献率Table 3.1 Accumulated contributed ratio of different principal number主元个数特征值方差百分比(%)累计方差百分比(%)11.034949.8349.8320.610229.3872.2130.19649.4688.6740.15237.3496

35、.0150.08293.991003.4 基于PCA-RBF的浮选过程软测量模型3.4.1 RBF神经网络的学习算法RBF神经网络7学习算法主要有:随机算法、自组织学习算法和最近邻聚类线性算法,它们用于选取RBF中心。随机算法和自组织线性算法适用于静态模式的离线学习,即算法有效的基础是事先必须获得所有可能的样本数据,不能用于动态输入模式的在线学习,且在学习前输入数据中心个数即RBF网络隐单元的个数要人为地确定,这就增加了解决问题的难度。下面介绍RBF网络常见的学习方法:(1) 随机选取RBF中心(直接计算法)在此方法中,隐单元RBF中心是随机在输入样本中选取,且中心固定。RBF中心确定以后,隐

36、单元输出是已知的,这样网络连接权就可通过求解线性方程组来确定。当RBF选用高斯函数时,高斯RBF均方差(即宽度)固定为: (3.13)式中,为所选中心之间最大距离:M为中心数(隐含层节点数)。这样选择目的是为了使高斯函数形状适度,即不要太尖,也不要太平。对于给定问题,如果样本数据的分布具有代表性,此方法不失为一种简单可行的方法。但是大多数情况下,在输入数据样本具有一定冗余性时,这种算法就显得无能为力了。(2) Moody和Darken算法Moody和Darken算法分两个阶段进行。第一阶段是无监督学习,采用Kmeans聚类方法对训练样本输入量进行聚类,找出聚类中心及宽度。在此过程中,RBF中心

37、是通过自组织学习确定其位置的,因此这种学习方法也称为自组织学习法。自组织学习算法在某种意义上对网络资源进行分配,学习目的是使RBF中心位于输入空间重要区域,使选取中心形成一特定分布规律,它表征着输入样本空间的固有特征。第二阶段是有监督学习,由于当和确定之后,RBF网络从输入到输出就成了一个线性方程组,因此可采用最小二乘法求解网络的输出权值。K-means聚类算法的具体步骤如下:步骤1:初始化聚类中心 (i=1,2,M)。一般是从输入样本(j=1,2,N)中选取M个样本作为聚类中心。步骤2:将输入样本按最近邻规则分组,设(J=1,2,N)中心为(i=1,2,M)的输入样本聚类集合(f=1,2,M

38、),亦即,且满足 (3.14)式中d为最小欧式距离。步骤3:计算中样本平均值(即聚类中心) (3.15)式中为中的输入样本数。重复步骤2和3,直到聚类中心分布不再变化。RBF中心确定以后,高斯RBF的均方差(即宽度)可根据(3.13)计算。(3) 有监督学习选取RBF中心在这种方法中,RBF中心及网络的其他自由参数都是通过有监督学习来确定。这是RBF网络学习最一般化形式。对于这种情况,有监督学习可采用简单有效的梯度下降法。(4) 正交最小二乘法(OLS)选取RBF中心正交最小二乘法(OrthogonalLeast Squares)是目前训练RBF网络较多的一种方法。其优点是简单易行,运算速度快

39、,但不适合递推运算,而基函数中心确定需进一步研究。(5)最近邻聚类学习算法文献8提出了一种动态自适应RBF网络模型,该模型是基于最近邻聚类学习算法。该算法是一种在线自适应聚类线性算法,不需要事先确定隐含层单元个数,完成聚类所得到的RBF网络是最优的,并且此算法可在线学习。具体过程如下:步骤1:选择一个适当高斯函数宽度r,定义一个矢量用于存放属于各类输出矢量之和,定义一个计数器B(t)用于统计属于各类样本个数,其中Z为类别数。步骤2:从第一个数据对(X1,Y1)开始,在X1上建立一个聚类中心,令=X1,=Y1=1。这样建立RBF网络,只有一个隐单元,该隐单元的中心为,该隐单元到输出层权矢量为=。

40、 步骤3:考虑第2个样本数据对(),求出到。这个聚类中心的距离;如果,则为的最近邻聚类,且令= +,=2,=/;如果,则将作为一个新聚类,且令=,=,=1。在上述建立的RBF网络中再添加一个隐单元,该隐单元到输出层的权矢量为C=。步骤4:假设我们考虑第k个样本数据对()时,k=3,4,N时,存在M个聚类中心,其中心点分别为,在上述建立的RBF网络中已有M隐单元。再分别求出到这M个聚类中心的距离,i=1,2,,M,设为这些距离中的最小距离,即为的最近邻聚类,则:如,则将作为一新聚类中心,并令=。,M=M+1,=,=l。且保持,的值不变,i=1,2,M-1。在上述建立的RBF网络中再添加第M个隐单

41、元,该隐单元到输出层的权矢量为=/。如,作如下计算:,=+1。当ij时,i=1,2,M,且保持,的值不变。隐单元到输出层的权矢量=,i=1,2,M。步骤5:根据上述规则建立的RBF网络其输出应为: (3.16)半径r的大小决定了动态自适应RBF网络的复杂程度.r越小,所得到聚类数目就越多,计算量也越大,精度也就越高,但网络泛化能力较差;r越大,所得到聚类数目就越少,计算量就越小,但精度也就降低,但网络泛化能力相对来说要好一些。实际应用中,要综合考虑计算速度、误差和网络泛化能力,选取适当的基函数宽度。但由于r是一个一维参数,通常可通过实验和误差信息找到一个适当的r,这比同时确定隐单元个数和一个合

42、适范数要方便的多。由于每个输入输出数据对都可能产生一个新聚类,因此,这种动态自适应RBF网络,实际上同时在进行参数和结构两个过程的自适应调整。3.4.2 RBF神经网络模型的训练和测试RBF神经元网络9(Radial Basis Function Neural Network)的产生具有很强的生物学背景。RBF神经元网络由三层组成,输入层节点只传递输入信号到隐含层,隐含层节点由像高斯函数那样的辐射状作用函数构成,而输出层节点是简单的线性函数。隐含层节点中的基函数对输入信号将在局部产生响应,也就是说,当输入信号靠近基函数的中央范围时,隐含层节点将产生教大的输出,这正体现了大脑皮质层的反应特点,由

43、此看出这种网络具有局部逼近能力,所以径向基函数网络也称为局部感知网络。RBF网络是一种性能良好的前向网络,它不仅有全局逼近能力,而且具有最佳逼近性能。RBF网络结构上具有输出-权值线性关系,同时训练方法快速易行, 不存在局部最优问题。本文中的RBF网络采用OLS算法,对三层径向基网络函数进行训练,隐层神经元个数为54个。针对鞍钢集团弓长岭选矿厂的浮选过程10,收集2004年的生产历史数据,在经过数据预处理后,选出具有均匀性和代表性的500组历史数据进行经济技术指标预测模型的训练,然后用另外200组数据进行泛化检验。图3.2为精矿品位和浮选回收率的检验数据的预测输出,图3.4为精矿品位和浮选回收

44、率的检验数据的预测误差。从图3.2-3.3中可以看出,软测量模型11对经济技术指标(精矿品位和浮选回收率)预测达到了比较准确的效果,精矿品位的预测误差在(%)之间,浮选回收率的预测误差在(%)之间。仿真结果表明该模型预测精度较高,基于预测模型药剂添加制度能够稳定浮选作业,提高作业回收率,具有一定实用价值,为浮选过程优化控制奠定基础。图3.2 精矿品位和浮选回收率的预测输出图3.3 精矿品位和浮选回收率的预测误差结 论本文主要是利用模糊C均值聚类和主元分析与神经网络建模的方法在浮选过程中进行数据预处理,主要做了一下几方面工作。1.详述了模糊C-均值聚类算法的基本思想和算法步骤。结合模糊C-均值聚

45、类的基本理论联系到浮选过程的实际情况中,通过了一系列的实验证明了FCM算法具有效性与实用性。2.通过查阅文献,初步了解了主元分析。可利用PCA对数据集进行降维处理的优点,大大简化了模型结构和建模的工作量。并且联系到RBF神经网络的知识,将主元分析与神经网络相结合,进行仿真研究,很好的实现浮选过程经济技术指标的全局预测,满足优化浮选药剂添加制度的计算要求。最后通过漫长查找资料,深入研究,安排排版的过程,看到了模糊C-均值聚类和主元分析的数据预处理的光明前景,它不仅适用于本文研究的浮选过程,也适用于其他生产过程,如化学反应过程、生物制药过程、石油炼制过程、纸浆造纸过程等等。致 谢四年的读书生活在这个季节即将划上一个句号,而于我的人生却只是一个逗号,我将面对又一次征程的开始。四年的求学生涯在师长、亲友的大力支持下,走得辛苦却也收获满囊,在论文即将付梓之际,思绪万千,心情久久不能平静。 伟人、名人为我所崇拜,可是我更急切地要把我的敬意和赞美献给一位平凡的人,我的导师王介生。我不是您最出色的学生,而您却是我最尊敬的老师。您治学严谨,学识渊博,思想深邃,视野雄阔,为我营造了一种良好的

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号