粗糙集理论方法及其应用ppt课件.ppt

资源描述

《粗糙集理论方法及其应用ppt课件.ppt》由会员分享，可在线阅读，更多相关《粗糙集理论方法及其应用ppt课件.ppt（37页珍藏版）》请在三一办公上搜索。

1、粗糙集理论方法及其应用,南京航空航天大学：菅利荣,内容简要,粗糙集产生与发展的时代背景粗糙集的基础理论与方法粗糙集与其它软计算技术的杂合粗糙集理论方法的应用,Internet和数据库技术的迅猛发展和广泛应用，数据库中存储的数据量以惊人的速度在增加，庞大的数据量渗透到社会生活和生产的各个领域，例：金融投资：股票指数和价格、利率、银行卡数据及诈骗监测等；卫生保健：存储在医院管理系统中的诊断数据；生产和制造：过程优化和故障检测；远程通讯网络：呼叫模式和故障管理系统；科学领域：天文观测、语音数据及生物数据等。,1 粗糙集产生与发展的时代背景,其结果导致传统的统计技术及数据管理工具不再适用于分析这些巨量

2、的数据集。海量的数据被描述为“丰富的数据，贫乏的知识”。人们需要采用自动化程度更高、效率更高的数据处理方法来处理大量数据，并提供有用的知识。,1 粗糙集产生与发展的时代背景,从金融业到制造业，越来越多的公司正依赖于巨量数据的分析获得竞争优势，知识已成为社会生活和生产的第一推动力。为了帮助人们智能化地分析海量数据，自动地分析一些事例，出现了新一代的技术和工具，这些技术和工具主要用于数据挖掘（Data mining，DM）和知识发现(Knowledge discovery in database，KDD)领域。KDD指从大型数据库中自动提取知识，目标是发现数据中隐藏的、以前未知的、潜在有用的知识，

3、本质上是在大的数据集合中寻找数据间的规则及普遍模式。数据挖掘的经典案例：啤酒与婴儿尿片问题,1 粗糙集产生与发展的时代背景,1 粗糙集产生与发展的时代背景,Pawlak于1982年提出的粗糙集理论（Rough set theory，RST)是一种描述不完整性和不确定性的数学理论粗糙集理论，能有效地分析不精确、不一致、不完整等各种不完备的信息，是关于数据推理的一种强大工具。粗糙集学习算法能够被用于从决策表中获取以IF-THEN形式表示的规则集。粗糙集方法提供了一种从数据库中获取知识的一种有效的方法。,2 粗糙集理论思想,粗糙集概念示意图,粗糙集方法是将数据转化为知识的一种规范的方法。将知识

4、视为分类的能力，每一个对象与一些信息相联系，且对象仅能用获得的信息表示。发现分类问题给定属性间的冗余及依赖，具有相同或相似信息的对象不能被识别。,2 粗糙集理论思想,粗糙集理论思想,2 粗糙集理论思想,粗糙集的主要思想,粗糙集的主要思想：是基于不可分辨关系，每一个对象与一些信息相联系，且对象仅能用获得的信息表示。具有相同或相似信息的对象不能被识别。论域的不可分辨对象形成了不可分辨对象的聚类，即知识粒度。用于近似的知识将U划分为由条件属性集判断是不可分辨的对象元素集，元素集被视为用于近似的“知识粒度”；被近似的知识将U划分为由决策属性集生成的决策类，在此基础上，用一种知识近似另一种知识

5、。,2 粗糙集理论思想,表1所示的关于全球变暖的一个信息系统, a1太阳能(Solar energy)，a2火山活动(Volcanic activity) , a3二氧化碳含量（Residual CO2,），d温度（Temperature）,例,2.1 信息系统设S=(U,A,V,f)为一个信息系统，也称为知识表示系统。其中，U=U1,U2,U3,U|u|为有限非空集合，称为论域对象空间；A=a1,a2,a3,a|A|为属性的非空有限集合。若A中的属性又可分为两个不相交的子集，即条件属性集C和决策属性集D，A=CD,CD= ,则S也称为决策表。 V=Va 其中aA， Va为属性a的值域；f：U

6、AV为信息函数，对于aA，xU，f(x,a)Va，它指定了U中每一对象的属性值。,2 粗糙集理论方法,令aA，xU，f(x,a)Va；对于任一子集P A，在U上的不可分辨关系I定义为：I=(x,y)UU：f(x,q)=f(y,q) qP 若(x,y)I，则称x和y是不可分辨的。,2.2 不可分辨关系（Indiscribility relation),不可分辨关系是一个等价关系(自反的、对称的、传递的）。包含对象x的等价类记为I(x)。等价类与知识粒度的表达相对应，它是粗糙集主要概念，如近似、依赖及约简等，定义的基础,2.2 不可分辨关系（Indiscribility relation),2

7、.3 粗糙近似,集合X的下近似实际上是由那些根据已有知识判断肯定属于X的对象所组成的最大的集合，也称为X的正区,记作pos(X)；集合X的负区neg(X)为根据已有知识判断肯定不属于X的对象组成的集合; 集合X的上近似由所有与X相交非空的等价类的并集组成，即那些可能属于X的对象组成的最小集合。集合X的边界区bnd(X)为集合X的上近似与下近似之差，如果bnd(X)是空集，则称X关于I是清晰的；反之如果bnd (X)不是空集，则称集合X关于I是粗糙的。,2.3 粗糙近似,2.4 近似精度与近似质量,2.4 近似精度与近似质量,2.5 属性约简与核,2.6 决策规则,对论域进行划分，可得如下等

8、价类 U/C=X1, X2, X3, X4, X5, X6其中：X1=n1，X2=n2，X3=n3，X4=n4,n5,n6,n9，X5=n7，X6=n8YH=n2,n3,n4,n5,n6, n8，YL=n1, n7, n9,2.7 算例,(1) 求整个条件属性集的分类质量：分类质量=5/9=0.56(2) 求约简由属性a1对论域进行划分，可得如下等价类 U/a1=X1, X2, X3, X4, X5, X6其中：X1=n1,n3,n8，X2=n2,n4,n5,n6,n9，X3=n7YL=n2,n3,n4,n5,n6, n8，YH=n1, n7, n9显然，属性a1的分类质量小于总的分类质量，属

9、性a1不是约简,2.7 算例,由属性a1 , a2对论域进行划分，可得如下等价类 U/C=X1, X2, X3, X4, X5, X6其中：X1=n1,X2=n2,X3=n3, n8，X4=n4,n5,n6,n9,X5=n7YL=n2,n3,n4,n5,n6, n8，YH=n1, n7, n9分类质量=5/9=0.56，与整个属性集的分类质量相同因此，属性子集a1,a2是约简。,2.7 算例,2.7 算例,2.8 约简算法,2.8 约简算法,约简对于在模型中分类对象最终构建一系列规则是重要的，有关的文献探讨了约简的两个主要方面，一方面是为给定的系统寻找约简的问题，这个问题是一个NP完全问题，常

10、见的约简算法有：快速约简、遗传算法、动态约简、相容性约简等。,2.8 约简算法,四类粗糙集,粗糙集理论分析要求，数据必须以类别的形式出现。因此，连续数据必须首先进行离散化处理，离散的结果可能会减小原始数据的精度，但将会提高它的一般性。数据离散问题是一个NP完全问题，数据离散可分为专家离散与自动离散，专家离散指由某一领域的专家根据他的判断或使用该领域确定的标准进行的离散；自动离散指按自动定义的方式进行的离散。自动离散方法又可分为有监督离散法和无监督自动离散法，无监督离散法可视为一个简单的聚类过程，如等频率区间法、等大小宽度区间法。有监督的的离散化方法又可分为两类，全局离散方法与局部离散方法。

11、注:将信息系统中的连续型数据离散为粗糙集模型可用的数据时，会产生潜在的信息损失，这个问题值得探讨。,2.9 数据离散,粗糙集理论的优势 RST与其他处理不确定和不精确问题理论的最显著的区别是它无需提供问题所需处理的数据集合之外的任何先验信息，如统计学中的概率分布、模糊集理论中的隶属度等，所以对问题的不确定性的描述或处理可以说是比较客观的。,3 粗糙集与其它软计算技术的杂合,粗糙集理论的不足由于对数据的过拟合而使其对新对象的预测能力大为降低；不能处理多标准决策分类问题；对于粗糙集边界区域的刻画比较简单，如基于等价关系的粗糙集的分类是确定的，而没有一定程度的属于或包含；不能识别仅由少数事例支持

12、的随机规则；不能识别包含偏好信息的属性间的不相容性；对原始数据本身的模糊性缺乏相应的处理方法等。,据一些学者进行的概率统计，每一种方法都有其适用范围，没有一种方法对于所有的问题都是最好的。在实践应用中，常将几个技术合并起来构造一个“杂合”的方法， “杂合”意思为合并现存方法许多优点的方法，以便优势互补，克服单个技术的限制，避免现存方法被分别使用时的缺点或弱势，这样的一个杂合系统优于单个方法的使用。杂合的另一个用途是展示一个体系结构中的多种信息处理，多种方法的杂合是KDD及数据挖掘的一个有广泛发展前景的研究方向。,3 粗糙集与其它软计算技术的杂合,软计算（模糊集、神经网络、粗糙集、灰色系统、遗传

13、算法等软技术及其优势互补地杂合）能够利用人类的直觉知识来处理不确定性信息，进而模拟人们的决策。软计算技术在许多不确定性决策问题中的应用，总的来说仍然多为艺术，不同的软技术模拟人类思维与学习能力的机制不同。,软计算旨在开采人们决策过程中的不精确性、不确定性、近似推理及部分正确性，以便获得易处理的、功能强大的、低成本的、且与人类决策极其类似的解决方法。软计算技术与人类思维的推理与学习的非凡能力相匹配，充分利用了人类的直觉知识，是解决不确定性决策问题的有效方法。与处理精确的、确定的且严格的硬技术方法相比较，软计算在获取不精确的或子最优的，但却经济的解决方法方面是有效的,且可与硬技术匹敌。由于软计算的

14、独特功能，软计算已吸引了各种学术团队越来越浓厚的研究兴趣中。,3 粗糙集与其它软计算技术的杂合,金融公司破产的预测专家系统雨水需求量预测的规则发现抵押、保险决策信用卡诈骗检测公司债券率预测信用卡风险预测银行持股模式预测web挖掘,4 粗糙集的应用,软计算已被广泛地应用于KDD中的数据挖掘中，如神经网络和粗糙集被广泛地用于分类和规则生成，遗传算法被用于各种优化和搜寻过程中。,现已开发出了多种基于软计算方法的商业化数据挖掘工具，如应用模糊集开发出的数据挖掘套件应用神经网络开发出的IBM智能数据挖掘机美国Kansas大学应用粗糙集开发的LERS（learning from examples bas

15、ed on rough sets，LERS）；波兰Poznan工业大学计算科学研究所智能决策支持系统实验室应用粗糙集研制的ROSE系统；加拿大Regina大学应用粗糙集研制的KDD-R系统；挪威Troll Data Inc.公司开发的Rough Enough系统及Rosset系统等。,4.1 粗糙集的应用,神经模糊杂合系统是应用最广泛的杂合方法，它将神经网络与模糊方法的优点杂合在一起，可生成高度智能化的决策系统。如模糊MLP(multi-layer perceptron)神经网络和模糊Kohonen神经网络已被用于语言规则生成和推理。粗糙模糊杂合系统已被用于处理多媒体数据和信息融合。粗糙神经网络作为一种词语计算方法在自然语言的查询表示中起着重要的作用。,4.2 杂合粗糙集的应用,目前，已开发了不少基于杂合软技术方法的知识发现系统，其中具有代表性的有Banerjee等人应用粗糙集、神经网络与模糊集的杂合设计了一种基于知识的系统（Rough-fuzzy MLP）；多种粗糙模糊杂合系统已被用于智能系统的设计中；美国Mathworks工作组开发的软件Matlab；Kiem等已成功研发出了一种用于从大型数据库中发现概念聚类的粗糙神经遗传杂合系统；粗糙神经专家系统粗糙神经推理机。,4.2 杂合粗糙集的应用,谢谢！,2011年4月,

展开阅读全文