【数学与应用数学专业毕业论文】聚类分析在企业信用等级划分中的应用.doc

上传人:laozhun 文档编号:3933175 上传时间:2023-03-28 格式:DOC 页数:34 大小:523KB
返回 下载 相关 举报
【数学与应用数学专业毕业论文】聚类分析在企业信用等级划分中的应用.doc_第1页
第1页 / 共34页
【数学与应用数学专业毕业论文】聚类分析在企业信用等级划分中的应用.doc_第2页
第2页 / 共34页
【数学与应用数学专业毕业论文】聚类分析在企业信用等级划分中的应用.doc_第3页
第3页 / 共34页
【数学与应用数学专业毕业论文】聚类分析在企业信用等级划分中的应用.doc_第4页
第4页 / 共34页
【数学与应用数学专业毕业论文】聚类分析在企业信用等级划分中的应用.doc_第5页
第5页 / 共34页
点击查看更多>>
资源描述

《【数学与应用数学专业毕业论文】聚类分析在企业信用等级划分中的应用.doc》由会员分享,可在线阅读,更多相关《【数学与应用数学专业毕业论文】聚类分析在企业信用等级划分中的应用.doc(34页珍藏版)》请在三一办公上搜索。

1、毕 业 论 文学生姓名: 学 号: 学 院: 理学院 专 业: 数学与应用数学 题 目:聚类分析在企业信用等级划分中的应用 指导教师: 评阅教师: 年 月 河北科技大学毕业论文成绩评定表姓 名涂帅学 号061002127成 绩专 业数学与应用数学题 目聚类分析在企业信用等级划分中的应用指导教师评语及成绩 指导教师: 年 月 日评阅教师评语及成绩 评阅教师: 年 月 日答辩小组评语及成绩答辩小组组长: 年 月 日答辩委员会意见 学院答辩委员会主任: 年 月 日 注:该表一式两份,一份归档,一份装入学生毕业设计说明书(论文)中。毕 业 论 文 中 文 摘 要聚类分析是数据挖掘中的一个重要研究领域,

2、是一种数据划分或分组处理的重要手段和方法。聚类无论在上午领域,还是生物学Web文档分类,图像处理等其他领域都得到了有效应用。目前聚类算法大体上分为基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法、基于模型的方法以及模糊聚类。k-均值算法是聚类算法中主要算法之一,它是一种基于划分的聚类算法。本文将该算法用于对企业信用等级的划分中。企业信用是客户选择企业的前提和有效依据,因此这方面的研究就有实际指导意义。第一部分主要介绍了企业信用等级划分的目的和意义。第二部分介绍了本文所采取的途径和聚类分析的相关知识以。第三部分是本文的核心,首先分析了与企业信用有关的属性,收集40家企业样本。然后介

3、绍了weka软件的使用。最后采用weka软件对样本数据进行聚类,得出40家企业信用等级,并对结果进行了分析。关键词:聚类分析,K-均值算法,企业信用等级划分,weka.毕 业 论 文 外 文 摘 要Title Cluster Analysis for the Application of the Classification of Enterprises Credit AbstractClustering is a major field in data mining which also is an important method of data partition or grouping

4、Clustering now has been applied into various ways such as incommerce,market analysis,biology,Web classification and so on. Clustering algorithms includes partitioning,hierarchical,density-based,grid-based,model-based algorithm and fuzzy clusteringK-means algorithm is one of the essential clustering

5、algorithmsWhich is used for the Enterprises credit rating classification. Enterprises credit is a prerequisite for customer choice and effective basis, so research in this area have practical significance.The first part introduces the corporate credit rating division of the purpose and significance.

6、 The second part describes the approach taken in this paper and the related knowledge to cluster analysis. The third part is the core of this article, First analyzes the properties with Enterprises credit and collect the 40 sample companies. Then introduced the weka software use. Finally weka cluste

7、r software on the sample data, obtained 40 Enterprises credit rating, and the results analyzed.Key Words Cluster Analysis,K-means algorithm,Corporate credit rating classification,weka.目 录1 引言11.1 选题的目的和意义21.2 研究内容和思路42 聚类分析52.1 聚类分析的基础知识52.2 聚类分析算法103 聚类分析在企业信用等级中的应用153.1数据收集153.2 weka软件173.3 对样本数据进

8、行聚类分析183.4 产生不同的原因24结论 26致谢 27参考文献28附录A 29附录B 29附录C 301 引言随着我国经济迅猛发展,企业信用对企业的竞争日益显示出至关重要的作用,企业信用体系建设是新时期商会协会工作的内在要求,对于推动行业自律,促进企业健康发展有着重要作用。企业信用等级划分通则对企业信用、企业信用风险和企业信用等级进行了定义,对企业信用的各个等级的划分要求和依据作出了原则性规定,该标准是引导企业走向诚信经营管理模式的指导性标准。学习贯彻这个标准,对于企业经济发展和质量竞争力具有重要的意义。长期以来,我国对信用问题缺乏足够的认识,导致整个社会信用环境不佳,信用缺失已经成为制

9、约我国经济健康发展的瓶颈。因此,尽快规范信用关系,建立和发展我国社会信用体系就显得尤为重要。国务院总理温家宝在十届全国人大二次会议上作政府工作报告时说要加快社会信用体系建设,抓紧建立企业和个人信用信息征集体系、信用市场监督管理体系和失信惩戒制度。加大整顿和规范市场秩序的力度,重点是继续抓好直接关系人民群众身体健康和生命安全的食品、药品等方面的专项整治。要严厉打击制售假冒伪劣产品、非法传销和商业欺诈行为。要加大知识产权保护力度,依法惩处盗版侵权行为。要严厉打击偷逃骗税、洗钱和走私等违法犯罪活动。这段话充分说明社会信用问题已引起了我国政府的高度重视,信用建设日益成为人们关注的焦点。本文就是针对这个

10、问题进行研究,旨在为解决这和问题而不懈努力。研究部分以发现问题,提出问题,分析问题,解决问题的思路为一条线索,结合样本数据的研究分析,同过weka软件和K均值算法,最终解决聚类分析在企业信用等级划分中的应用问题,从而达到本文目的,为以后客户对企业的选择提供了可依赖的性方案,更将成为投资者决策的参考依据。11选题的目的和意义面对信息技术的日新月异,人们利用信息技术生产和搜集数据的能力大幅度提高,大量的数据库被用于商业管理、政府办公、科学研究和工程开发等等,要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,数据挖掘和知识发现技术应运

11、而生,并得以蓬勃发展,越来越显示出其强大的生命力。数据挖掘【1,2】 (Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。挖掘出的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,涉

12、及人工智能技术、统计技术与数据库技术等多种技术。它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。聚类分析将大量数据划分为性质相同的子类,便于了解数据的分布情况。因此,它广泛应用于模式识别、图像处理、数据压缩等许多领域,例如【3,4,5】:在市场分析中,通过聚类分析能帮助决策者识别不同特征的客户群以及各客户群的行为特征;在生物工程研究中,聚类分析能够用于推导动植物的分类,按照功能对基因进行划分并获取种群中的固有结构特征;在非关系数据库领域(如空间数据库领域),聚类分析能够识别具有相同地理特征的区域以及该区域的环境和人的特征:在web信息检索

13、领域,聚类分析能够对web文档进行分类,提高检索效率。本文主要将聚类分析技术应用于企业应用信用等级中,各企业的竞争主要是客户源的争夺,通过对对企业信用等级分级,可以帮助企业把有效的精力集中在最有价值的客户和最有发展潜力的客户身上,优先配置资源,同他们建立稳定的客户关系,全面提升企业的盈利能力和竞争能力。因此这方面的研究具有现实的指导意义。企业信用等级的社会利用价值已经日趋广泛,具体体现在以下几方面:一、企业信用等级作为市场经济条件下企业之间进行经济交往的通行证,可以帮助企业提高效率,减少不必要的交易成本。目前,我国的市场经济体制还不是很完善,在经济活动中,因信用不佳引发的矛盾日益突出。从产品质

14、量低劣、企业间三角债严重、拖欠银行本息、拖欠税款发展到恶意逃废债务、商业欺诈、制假贩假等。良好的信用等级可以成为企业宝贵的无形资产,是一种特殊的资本,是现代化市场经济运行中一种新的资本形态,它蕴涵着丰富的文化内涵,使企业在市场竞争中处于有利地位。二、企业信用等级可以成为政府行使监管职能的有力依据。在市场经济条件下由于政企分开,政府只行使监管职能,不再直接参与企业的经济活动,从而无法全面地掌握、了解企业情况,而企业情况又是政府科学管理企业、制定相关政策所不可缺少的依据。在市场经济发达的国家,政府在行使监管职能、进行宏观调控时,通常会将由权威信用评级机构对企业所做出的信用等级作为重要的参考依据。对

15、于那些信用等级高的企业政府可以给予大力支持,而对于那些信用等级低的企业政府则可以限制其发展,从而加强对企业的指导和监督。三、企业信用等级是商业银行开展信贷业务的有效且必要依据。四、企业信用等级是广大投资者在进行决策过程中的参考依据。投资回报的相关因素和相关风险是投资者在决定是否要投资时必须考虑的,但投资者与被投资者之间存在严重的信息不对称,广大投资者可以详细了解被投资者综合信息的途径十分有限,因此在决策时带有一定的盲目性。企业信用等级划分后,将成为投资者的决策参考依据。五、企业信用等级是以德治国和社会主义精神文明建设的重要内容10,是和谐人际关系的润滑剂。企业作为社会的独立单位,肩负着一定的社

16、会责任,因此提高道德修养的动力源,有助于净化社会风气、维护社会稳定,改善国家管理。企业信用等级划分意义重大,有助于我们对个企业更深入的了解。但现在我们遇到了一个难题,用什么方法来划分企业的信用等级呢?本文就是针对这个问题进行讨论,用聚类分析的方法实际样本数据来划分企业的信用等级,从而达到本文所需要的目的。1.2 研究内容和思路本文的主要研究工作,在研究聚类分析,通过摸索聚类分析的划分方法来对企业信用等级进行划分。在聚类分析中我们将要搜集与信用等级有关的相关数据与属性,并在其属性之中找出能通过相似度与欧式空间距离划分各各簇的主属性。这里我简单罗列企业由于信用等级有这密切关系的属性(数据指标):资

17、产总额(万元),负债总额(万元) ,流动负债(万元),营业利润(万元) ,资产负债率(%) ,流动比率(%),速动比率(%),每股收益(元),存货周转率(%) ,应收账款周转率(%),总资产周转率(%),营业利润增长率(%),总资产增长率(%)13个变量,这里就不做多解释了。数据有了,但怎么聚类呢?为了解决此问题采用的一种数据挖掘软件weka软件,从而达到最终目的。本文采用是weka里最简单simpleKMeans通过Cluster达到聚类才效果(图1)。因为weka软件程序是根据k均值算法来进行分析的,所以本文着重研究K均值算法,研究其理论,摸清其思路结合实际来完成本文章。图1 Weka中聚

18、类分析本文主要采用Kmean聚类分析的方法来确定企业等级的划分。首先寻找大量企业,从各行各业随机选取企业,不要刻意去选取业绩好的公司,不然研究其来就没有多大意义了。其次收集与企业信用有关的企业财务数据,了解企业最基本情况,这一步是至关重要的,我们以后所有的研究都是根据这个数据而来的。 2 聚类分析2.1 聚类分析的基础知识 2.1.1 类的定义在对数据对象进行聚类的时候,首先要给类定义。由于客观事务纷繁芜杂的特性,以及我们在特征提取过程中用来表示样本点性质的特征变量的不同选择,使得样本点的表示很不相同,在不同的问题中类的定义也是不同的。以下提出几种不同的类的定义。定义:设G表示一个有k个样本的

19、集合,S表示其中的样本,T和V为预设阀值,则如果对于任意Si,SjG,都有D(Si,Sj ) T,则G称为一类;如果对每个SiG,都有,那么G称为一类;如果对于任意Si,SjG,都有 (1)且D(Si,Sj ) T,那么G称为一类。对于任意样本Si,都存在G中的一个样本Sj,满足D(Si,Sj ) T,则称G为一类。显然,以上几种定义均通过限制元素间的距离来定义类,只是限制方法有所不同,定义是要求最高的,凡是满足定义要求的类,肯定满足其他几种定义;凡是满足定义的集合,也必定满足定义。2.1.2 类的表示聚类的表示方法一般有以下几种:自然语言描述:直接用自然语言描述符合某些条件的数据点属于某个类

20、。DNF描述:用析取范式表示简洁、准确,例如:(18PT30)V(800AM2000)聚类谱系图:大部分的聚类算法的输出结果为一个聚类谱系图,它可以详细展示从总体归为一类到所有样本点自成一类之间所有的中间情况,如果聚类谱系图的每个类均标有其平台高度,则称之为标度聚类谱系图。2.1.3 相似性测度聚类分析按照样本在性质上的亲疏远近进行分类。为了使类分得合理,必须描述样本之间的亲疏远近的程度。刻画样本点之间的相似性主要有距离和相似系数:(1)距离:设使用n个指标特征变量来描述样本,那么我们就可以把每个样本点看作n维空间的一个点,进而使用某种距离来表示样本点之间的相似性,距离较近的样本点性质较相似,

21、距离较远的样本点差异较大。距离函数:设Q是样本点集合,如果函数满足以下条件,我们称之为距离函数:正定性,if XY ,if X=Y对称性 =三角不等式+有时我们定义的距离函数不满足三角不等式,从广义的角度我们也称为距离。而在另外一些场合,条件被减弱为 (2) 对于一切的z使用条件替代条件得到的距离,我们称之为极端距离,它在系统聚类法的分析中有很重要的应用。(2)聚类分析中常用以下三种距离函数:欧氏距离( Euclidean distance)是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。 (3)马氏(Mahalanois)距离 (4) 是样本矩阵A的协方差阵,是总体分布的协差

22、估计量。马氏距离是明氏距离的改进,它对于一切线性变换是不变的,克服了明氏距离受量纲影响的缺点;马氏距离也部分克服了多重相关性。兰氏(Lance)距离 (5) 兰氏距离克服了明氏距离受量纲影响的缺点,但没有考虑多重相关性。聚类分析中不仅要将样本点聚类,在有些场合还需要对特征变量进行聚类。特征变量之间的相似性测度除了可以使用上述的距离函数之外,更常用的是相似系数函数。(2)相似系数:如果一个函数C:满足以下条件,我们就称之为相似系数函数。c(x,y)越接近1,两个特征变量间的关系越密切。经常采用的相似系数有以下两种:夹角余弦 (6)这是受相似形的启发而来的,夹角余弦函数忽略各个向量的绝对长度,着重

23、从形状方面考虑它们之间的关系。当两个向量方向相近时,夹角余弦值较大。反之则较小。特殊的当两个向量平行时,夹角余弦值为1,而正交时余弦值为0。 相关系数 (7)相关系数是对向量做标准差标准化后的夹角余弦。它表示两个向量的线性相关程度。2.1.4 类的测度函数类的测度一般使用距离作为测度函数。一般有如下三种:最短距离法:也叫单连接(Single Link)法或最近邻(Nearest Ne:ighbor)连接,使用两类间的最近两点的距离来描述两类问的相似程度。 (8)最长距离法:也叫完全连接(Complete Link)或最远紧邻连接,使用两类间的最远两点的距离来描述两类问的相似程度。为一类,然后遵

24、循某种最优准则将它分为两类,一直分裂为每个样本点各成一类。是否需要分裂操作,同时使用一个分类函数的值来控制。当一类分得比较合理时,分类函数的值最小,反之则较大。分裂法试图寻求一种分类方案,使得分类函数值达到极小。加入法(Adding):设已经存在一个分类方案(使用聚类谱系图或分类树表示),每次加入一个新样本,按照某种规则确定其在分类系统的合适位置,当样本全部加入之后,分类即告结束。除了以上提到的策略之外,还有其他的一些方法,例如应用模糊数学理论的模糊聚类法、应用最小支撑树的图论法等等。2.1.5 聚类的一般步骤第一步是特征提取。特征提取的结果是输出一个矩阵,每一行是一个样本,每一列是一个特征指

25、标变量。选取特征的优劣将直接影响以后的分析和决策。如果第一步就选择了与聚类意图毫不相关的特征变量,试图得到良好的聚类结果则无异于缘木求鱼。因为无论后续步骤采用多么优良的聚类算法和阀值选择方案,都不可能计算出执行者的意图。合理的特征选取方案应当使得同类样本在特征空间中相距较近,异类样本则相距较远。在有些场合还需要将得到的样本矩阵进行一些后处理工作。比如为了统一量纲就对变量进行标准化处理,这样采用相同量纲的变量才具有可比性,在有些场合可能选择的特征变量太多,不利于以后的分析和决策,这时可以先进行一下降维处理,仅凭经验和领域知识选择的特征变量有可能是相关的,进行主成分分析就可以消除变量间的相关性,从

26、而得到一些相互独立的特征变量。下来是执行聚类算法,获得聚类谱系图。聚类的输入是一个样本矩阵,它把一个样本想象成为特征变量空间中的点。聚类算法的目的就是获得能够反映N维空间中这些样本点的最本质的“簇”的性质。这一步没有领域专家的参与,它除了集合知识外不考虑任何的领域知识,不考虑特征变量在其领域中的特定含义,仅仅认为它是特征空间中的一维而已。聚类算法的输入一般是一个聚类谱系图,由粗到细地反映了所有的分类情况或者直接给出分类方案,包括总共分为几类,每类具体包含那些样本点等等。最后是选取合适的分类阀值。在得到了聚类谱系图后,领域专家凭借经验和领域知识,根据具体的应用场合,决定阀值的选取。选定阀值以后,

27、就能够从聚类谱系图上直接看出分类方案。没有领域专家的参与,不考虑具体的应用背景,而仅仅依赖从聚类谱系图出发寻找聚类指数的突变点或者求最小生成树的长边等等,往往不会得到满意的结果。领域专家还可以对聚类结果结合领域知识进行进一步的分析,从而加深样本点和特征变量的认识。实际应用聚类分析是一个需要多方参与的过程,它无法脱离领域专家的参与,聚类算法仅仅是整个聚类流程中的一个环节而已,光依靠聚类算法专家一般不会得到令人满意的结果。2.1.6 聚类分析研究现状目前,聚类分析技术正在蓬勃发展,它对数据挖掘、统计学、机器学习、市场营销等领域都做出了贡献并已经成为数据挖掘研究领域中一个非常活跃的研究课题。聚类分析

28、将大量数据划分为性质相似的子类,这样便于了解数据的分布情况,从而从中提取有用的知识。聚类分析作为数据挖掘的重要组成部分,现已广泛的应用于各个领域。目前的聚类算法很多,但不同的算法有各自的特点:基于划分的算法适用于类数固定、偏好球形的聚类;基于层次的算法能得到不同粒度上的多层次聚类结构;基于密度的算法可以在含“噪声数据库中发现形状任意以及不同规模的聚类;基于网格的聚类算法处理速度快,处理时间独立于数据对象的数目;基于模型的方法则适用于数据分布已知的聚类。因此,在实际应用中可以根据不同的应用、数据类型和目的,选择使用最好的聚类方法。同时,新数据形式的产生和广泛应用对传统的聚类算法提出了挑战,聚类分

29、析将随着应用的需求及新技术的出现而得到很大的发展。聚类分析已经被广泛研究了多年,主要集中在基于距离的聚类分析。K-means聚类算法是一种常用的动态聚类法,它根据事先确定的K值,把待聚类样本分为K类,使所有样本到聚类中心的距离平方和最小。现在Kmeans聚类算法己经应用到各种领域,包括图像和语音数据压缩,用径向基函数网络进行系统建模的数据处理,以及在异构神经元网络结构中的任务分解等。但是,该算法的聚类结果受到所选聚类个数K的影响,尤其对于未知聚类数的样本集,K值的选择需要人为指定且具有随机性,为了得到较好的聚类效果,通常需要试探不同的K值。聚类数、初始聚类中心的选择以及数据的几何特性等都影响了

30、K-means算法的聚类过程。许多专家和学者都在进行关于K-means算法的改进研究,并涌现出大量的论文。另外,基于Kmeans,KmeAoids和其他一些方法的聚类分析工具己经被加入许多统计分析软件包或系统中。2.2 聚类分析算法2.2.1 基于划分的方法K-means方法和K-medoid方法是最典型的划分方法。算法的处理思路基本相同,即给定一个数据库D,用户输入要获得聚类簇的个数k。开始任意将D划分为k个部分,然后通过更新簇的中心来调整划分,当整体差异函数收敛的时候结束处理过程。它们之问的差别是簇中心的表示方法,划分调整策略和整体差异函数的定义。K-means方法是本文章解决问题的工具,

31、所以这里对K-means进行详细的介绍。由MacQueen提出的k均值算法是解决聚类分析问题的一种经典算法,广泛的用于数据挖掘和知识发现领域。K均值算法以K为输入参数,把n个对象的集合分为K个簇,使得结果簇内的相似度高,而簇之间的相似度低。簇的相似度是关于簇中对象的均值度量,可以看作簇的质心(centroid)或重心(cebter of gravity)“k均值算法是怎样工作的呢?”K均值算法的处理流程如下。首先,随机地选取k个对象,每个对象代表一个簇的初始均值或中心。对剩余的每个对象,根据其各个簇均值的距离将它指派到最相似的簇。然后计算每个簇的新均值。这个过程不断的重复,直到准则函数收敛。通

32、常,采用平方误差准则,其定义如下: (10)其中,E是数据集中所有对象的平方误差和,平是空间中的点,表示给定对象,mi是Ci的均值(p和mi都是多维的)。换句话说,对于每个簇的每个对象,求对象到其簇中心距离的平方。让后求和。这个准则试图使生成的k个结果簇尽可能的紧凑和独立。分析误差平方和准则函数发现:K-means算法是一个最优化求解问题,目标函数存在着许多局部极小点,只有一个是全局最小点。目标函数的搜索方向总是沿着误差平方和准则函数减小的方向进行。不同的初始值使得聚类中心向量v沿着不同的路径使目标函数减少。如(图2)所示,目标函数分别沿着圪、K、诈三种不同的初始值向量的路径逐步减小,分别找到

33、各自对应的最小值。其中,只有B点对应的最小值才是全局最小点,而A、C两点对应的最小值是局部极小点。K-means算法是一种爬山算法(Hill climbing),算法终止时往往找到的是局部极小值。图2 聚类中心向量K均值算法是试图确定最小化平方差函数的K个划分。当结果簇是紧凑的看,并且簇与簇之间明显分离时,它的效果较好。处理大量数据集,该算法的相对可伸缩的和有效率的,因为它的计算复杂时O(nkt),其中你是对象的总数的总数,k是簇的个数,t是迭代的次数。通常地,kn并且tn。该方法经常终止于局部最优解。2.2.2 K均值算法过程的概述【7】:算法:k均值。用于划分的k均值算法,每个簇的中心用族

34、中对象的均值表示。输入:K:族的数目,D:包括n个对象的数据集。输出:k个簇的集合。方法:1) 从D中任意选择k个对象作为初始簇中心;2) Repeat3) 根据簇中的对象的均值,将每个对象(再)指派到最相似簇;4) 更新族均值,即计算每个簇对象的均值;5) Until不在发生变化2.2.3 K均值算法框架【8】:1. 给定大小为群的数据集,令,选取k个初始聚类中心,j=1,2,3k;2. 计算每个数据对象与聚类中心的距离,i=1,2,3n,j=1,2,3k,如果满足:,则; (11)3. 计算误差平方和准则函数: (12)4. 判断:若则算法结束;否则I=I+1,计算K个新的聚类分析,j=1

35、,2,3k,返回。 (13)2.2.4 K-means算法的步骤【9】:k-means算法:算法tmeans(s,k),input: n个数据对象集合xioutput:k个聚类中心Zj及k个聚类数据对象集合Cj,Beginm=1initial k prototypeZ,repeatfori=1to n docomputer (14)if,then (15)endif m=1,then (16)m=m+1for j=1 to k do; (17); (18)Until (19)Endk个初始聚类中心点的选取对聚类结果具有较大的影响,因为在该算法第步中是随机的选取任意k个点作为初始聚类中心,初始地

36、代表一个簇。该算法在每次迭代中对数据集中剩余的每个对象,根据其与各个簇中心的距离,将每个对象重新赋给最近的簇。当考察完所有数据对象后,一次迭代运算完成,新的聚类中心和值也计算出来。如果在一次迭代前后,值没有变化,说明算法已经收敛,即准则函数【10】作为算法是否结束的依据。在迭代过程中值逐渐减小,直到它的最小值为止。(图3) 显示了K-means算法的迭代过程。这个算法需要的时间复杂度为O(tknd),其中t是算法循环的次数,tn ,kn 。图3 K-means算法的迭代过程3 聚类分析在企业信用等级中的应用3.1 数据收集3.1.1 样本选取由于保险公司、银行等金融机构的信用评级方法与一般的企

37、业有较大的区别,因此在本文中所涉及的企业不包括金融机构等。又考虑到所选样本覆盖范围应当全面,数据来源也要可靠,因此我们按照StockS的行业划分,从22个行业中选取了一个有代表性的上市公司。这些公司的覆盖范围相当广泛,涵盖了大部分的所有制属性,包括国有企业、民营企业、合资企业,并且该网站的提供的数据全面可靠,基本上符合我们的要求。所选定的公司见表(附A)。我们主要是采用上市公司2009年的年报财务数据。3.1.2 企业数据选取我们研究的课题是聚类分析在企业信用等级划分中的应用,所以我们首先选取与企业信用有关的数据,通过对数据的分析和相关软件进行聚类,从而达到目的。通过收集分析我最终选择的如下企

38、业数据:资产总额(万元) ,负债总额(万元),流动负债(万元),营业利润(万元),资产负债率(%) ,流动比率(%),速动比率(%),每股收益(元),存货周转率(%) ,应收账款周转率(%),总资产周转率(%),营业利润增长率(%),总资产增长率(%) 。企业资产总额反映了一个公司的能力的大小。资产总额指企业拥有或控制的全部资产。包括流动资产、长期投资、固定资产、无形及递延资产、其他长期资产等,即为企业资产负债表的资产总计项。上面选取的数据都与企业的贷款,还款有着直接或间接的关系。现在我将选取的数据属性显示在二维图表中,Xn表示企业数据属性,Yn表示企业名称,其对应关系如下:X1资产总额(万元

39、)X2负债总额(万元)X3流动负债(万元)X 4营业利润(万元)X5资产负债率(%)X6流动比率(%)X7速动比率(%)X8每股收益(元)X9存货周转率(%)X10应收账款周转率(%)X11总资产周转率(%)X12营业利润增长率(%)X13总资产增长率(%)Y1深圳世纪星源股份有限公司Y2中航地产股份有限公司Y3江西洪都航空工业股份有限公司Y4爱尔眼科医院集团股份有限公司Y5TCL集团股份有限公司Y6浙江金利华电气股份有限公司Y7北海银河高科技产业股份有限公司Y8兰州长城电工股份有限公司Y9北京万邦达环保技术股份有限公司Y10中兴通讯股份有限公司Y11远光软件股份有限公司 Y12广东风华高新科

40、技股份有限公司Y13天津普林电路股份有限公司Y14合肥百货大楼集团股份有限公司Y15宝鸡商场(集团)股份有限公司Y16青海盐湖工业集团股份有限公司Y17青岛金王应用化学股份有限公司Y18中工国际工程股份有限公司Y19厦门市建筑科学研究院集团股份有限公司Y20北京燕京啤酒股份有限公司Y21山西杏花村汾酒厂股份有限公司Y22河南恒星科技股份有限公司Y23西宁特殊钢股份有限公司Y24福建中福实业股份有限公司Y25四川升达林业产业股份有限公司Y26沈阳机床股份有限公司Y27陕西秦川机械发展股份有限公司Y28青岛海信电器股份有限公司Y29天津海泰科技发展股份有限公司Y30重庆建峰化工股份有限公司Y31山

41、东华阳科技股份有限公司Y32江铃汽车股份有限公司Y33东风电子科技股份有限公司 Y34北京华谊嘉信整合营销顾问股份有限公司Y35浙江钱江摩托股份有限公司Y36上海斯米克建筑陶瓷股份有限公司Y37西藏矿业发展股份有限公司 Y38山东鲁丰铝箔股份有限公司Y39安徽丰原药业股份有限公司Y40河南中原高速公路股份有限公司3.2 weka软件3.2.1 weke软件的介绍Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品-Clementine )的,基于JAVA环境下

42、开源的机器学习(machine learning)以及数据挖掘(data minining)软件。它和它的源代码可在其官方网站下载。有趣的是,该软件的缩写WEKA也是New Zealand独有的一种鸟名,而Weka的主要开发者同时恰好来自New Zealand的the University of Waikato。 WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。而开发者则可使用Java语言,利用Weka的架构上开发出更多的数据挖掘算法。 读者如果想自己实现数据挖掘算法的话,可以看一看weka的接口文档。在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。如图(附1)

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公文档 > 其他范文


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号