《基于weka平台的个人信用评级模型设计与实现.docx》由会员分享,可在线阅读,更多相关《基于weka平台的个人信用评级模型设计与实现.docx(9页珍藏版)》请在三一办公上搜索。
1、基于weka平台的个人信用评级模型设计与实现目录第一章概论31.l课题背景31.2 实验目的31.3 问题与挑战3第二章数据准备与预处理42.1 数据采集42.2 数据预处理42.2.1 数据清理4222数据变换5第三章建立模型与分类实现53.1 贝叶斯分类方法53.2 基于决策树的方法53.3 支持向量机方法6第四章模型评估与比拟74.1 预测精确度及效率比拟74.1.1 预测精度比拟74.1.2 效率比拟74.2 模型应用分析与限制74.2.1 个人信用评估模型应用分析74.2.2 个人信用评估模型应用限制8第五章后记错误!未定义书签。5.1 任务分配95.2 个人收获10基于weka平台
2、的个人信用评级模型设计与实现第一章概论1.1 课题背景随着改革开放步伐的加快,世界经济全球化的融合,越来越多的中小型企业在机遇和挑战的夹缝中艰难求存,越来越多的工薪族在面对价格不断上涨的房子面前望而却步,贫富差距增加,贫困人口想要改变现状步履艰难。在这种状况下,贷款融资成为一个走向成功的突破口。然而,曾经普通人想要向贷款不啻于上青天。首先,大的国有银行通常只效劳大客户,商业贷款动辄上百上千万,对于中小型企业和个人,因为风险大,收益少,通常不在其考虑之列。其次,中小型城市迅速开展,但是城市底层,农村乡镇等地方,银行深入不到。最后,民间贷款(高利贷)现象纷乱,扰乱市场秩序。至此,许多小额贷款公司应
3、运而生,某些大企业,诸如阿里等大型企业也开始将目光放注于这土地,纷纷开启小额贷款。小额贷款(MiCroCredit)是以个人或家庭为核心的经营类贷款,其主要的效劳对象为广阔工商个体户、小作坊、小业主。贷款的金额一般为100O元以上,1000万元以下。然而,无论是对个人还是对信贷公司来说,贷款都不能盲目。贷款金额的大小,是否具有归还能力等等都是需要仔细考量的。1.2 实验目的为信贷公司建立一个信用等级评估系统,对贷款人的家庭状况,个人年收入,固定资产估值,教育水平,有无历史拖欠记录等属性进行分析,由此来对贷款人进行信用等级的划分,目前将其分为A,B,C三个等级,属于对应信用等级的贷款人具有相应的
4、贷款金额上限。1.3 问题与挑战对目前己有的贷款人数据的婚姻状况,个人年收入,固定资产估值,教育水平,有无历史拖欠记录等属性在Weka平台上按等级进行划分,每个人的属性都属于不同的等级,全方位综合的将其分类为不同信用等级,以此作为训练集估测出一个分类模型,对于今后需要贷款的人在此模型上进行评估以确定该贷款人的信用等级,信贷公司可依据此等级来确定对其的贷款金额的大小。第二章数据准备与预处理2.1 数据采集个人客户信用评级从婚姻、年收入、工作年限、固定资产估值、教育水平、拖欠记录次数等六个方面来分析借款人的信用状况。在实际的商业银行环境中,并非对所有的大客户的个人信息都有科学的管理,根据我国商业银
5、行的实际情况以及国外多家金融机构的信用评级情况,评估客户的信用情况要考虑四大主要因素:申请人的自然情况、职业情况、家庭情况、与银行的业务往来关系。这四大因素实际上是对信用评级体系的一种综合反映,具体包括以下因素:(1)自然情况:年龄、性别、婚姻状况、健康状况、文化程度、住宅类型、当前住宅居住时间:(2)职业情况:单位性质、职业、职位、职称、在当前单位的工作年限、月收入:(3)家庭情况:家庭人均月收入、家庭债务收入比例;(4)与银行的业务往来关系:账户、存款金额、业务往来、其他借款情况。由于实验时间和个人能力所限,经小组讨论后我们在四大主要因素中选取了婚姻、年收入、工作年限、固定资产估值、教育水
6、平、拖欠记录次数六个属性,其中婚姻划分三个等级,年收入、工作年限、固定资产估值、教育水平、拖欠记录次数均划分为四个等级,总共收集300分数据样本。2.2 数据预处理初步采集的数据很多是不完整的、有噪声的,所以在获取数据源后,需要进行数据的清洗和转换,使其符合数据挖掘算法的要求,并能够产生最为可靠和准确的结果。2.2.1 数据清理先对数据进行整理、对噪声数据进行处理,以增加数据挖掘结果的准确性。(1)对空值的处理:空值出现的可能性很多,主要是由于数据采集时缺乏样本数据产生。对空值的处理有很多方法,比方:最大频数填充、平均值填充、人工随机填充等。根据本数据样本的具体情况我们决定采用人工随机填充的方
7、法。(2)对噪声数据的处理:可以采用分箱、聚类、回归等。本实验采用分箱的方法对噪声数据进行处理。2.2.2 数据变换在所得的原始信息中绝大局部的字段值都是字符值,为了在数据处理中,占用更小的空间和取得更快的计算速度,要把字符型的数据转化为数值型的数据。第三章建立模型与分类实现3.1 贝叶斯分类方法贝叶斯分类器是一个统计分类器。它能够预测类别所属的概率。如:一个数据对象属于某个类别的概率。贝叶斯分类器是基于贝叶斯定理(以下将会介绍)而构造出来的。对分类方法进行比拟的有关研究结果说明:简单贝叶斯分类器(称为根本贝叶斯分类器)在分类性能上与决策树和神经网络都是可比的。在处理大规模数据库时,贝叶斯分类
8、器巴表现出较高的分类准确性和运算性能。设X为一个类别未知的数据样本。H为某个假设,假设数据样本X属于一个特定的类别C,那么分类问题就是决定P(HX),即在获得数据样本X时,H假设成立的概率。P(HIX)是事后概率,或为建立在X(条件)之上的H概率。例如:假设数据样本是水果,描述水果的属性有颜色和形状。假设X为红色和圆状,H为X是一个苹果的假设,因此P(HlX)就表示在X是红色和圆状时,确定X为一个苹果的H假设成立的概率;相反P(三)为事前概率,在上述例子中,P(三)就表示任意一个数据对象,它是一个苹果的概率,无论它是何种颜色和形状。与P(三)相比,P(H1X)是建立在更多信息根底之上的,而前者
9、那么与X无关。类似的,P(XlH)是建方在H根底之上的X成立概率,也就是说:假设X是一个苹果,那它是红色和圆状的概率可表示为P(XIH)。由于P(X),P(三)和P(XlH)的概率值可以从(供学习使用的)数据集合中得到,贝叶斯定理那么描述了如何雕吃)招QO和研婚Pl)计算获得的P(HIX)。有关的具体公式定义描述如下:P(X)根本贝叶斯分类器(naiveBayesianClaSSifierS)假设一个指定类别中各属性的取值是相互独立的。这一假设也被称为:类别条件独立(ClaSSConditionaIindependence),它可以帮助有效减少在构造贝叶斯分类器时所需要进行的计算量。贝叶斯算法
10、运行结果图:3.2 基于决策树的方法所谓决策树就是一个类似流程图的树型结构,其中树的每个内部结点代表对一个属性的测试,其分支就代表测试的每个结果,而树的每个叶结点就代表一个类别。树的最高层结点就是根结点。决策树的中间点通常用矩形表示,而叶结点常用椭圆表示。为了对未知数据对象进行分类识别可以根据决策树的结构对数据集中的属性值进行测试,从决策树的根结点到叶结点的一条路径就形成了对相应对象的类别预测。决策树可以很容易转换为分类规那么。基于J48算法的决策树运行效果图:基于J48算法的决策树:3.3 支持向量机方法支持向量机(SupportVectorMachine,简称为SVM)是一种监督式学习的方
11、法,可广泛地应用于统计分类以及回归分析。支持向量机属于一般化线性分类器。这族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区,因此支持向量机也被称为最大边缘区分类器。SVM的主要思想可以概括为两点:它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;支持向量机算法的优点:(1) SVM学习问题可以表示为凸优化问题,因此可以利用的有效算法发现目标函数的全局最小值。而其他分类方法(如基于规那么的分类器和人工神经网络)都采用一种基于贪心
12、学习的策略来搜索假设空间,这种方法一般只能获得局部最优解。(2) SVM通过最大化决策边界的边缘来控制模型的能力。尽管如此,用户必须提供其他参数,如使用核函数类型和引入松弛变量等。(3) 通过对数据中每个分类属性引入一个哑变量,SVM可以应用于分类数据。(4) SVM-般只能用在二类问题,对于多类问题效果不好。支持向量机算法(SVM)运行效果图:第四章模型评估与比拟4.1 预测精确度及效率比拟4.1.1 预测精度比拟我们对模型预测准确度进行如下判断:当利用模型对训练样本和确认样本中的客户进行分类时,对各种模型的误判率进行比拟,误判率越低模型的精确度越高。应该说,在个人信用评估模型中以误判率做为
13、衡量标准并不是最适宜的,因为两类错误所带来的损失往往是不同的,当两类损失时,以总损失最小为标准是衡量模型优劣最适宜的评价方法。具体到实际问题中,我们应比拟把好客户误判为差客户和把差客户误判为“好客户的损失。本文假定两类错误所造成的损失相同,以误判率做为标准。下列图为三种方法同时运行比照图从图中可以看出,贝叶斯分类器、J-48树、SVm三种方法进行分类的精确度分别为门.46黯69.95%,70.08%.贝叶斯分类器分类效果最好,为71.46%的精确度,也就是说误判率最低,所以对于现有数据而言,贝叶斯分类器较为理想。比照分析来看,贝叶斯分类器基于概率的思想,在处理大规模数据库时,贝叶斯分类器巴表现
14、出较高的分类准确性和运算性能。而svm一般在两类数据的分类处理上表现出很高的性能。4.1.2 效率比拟贝叶斯分类器分类完成的执行时间为0.01秒,J-48树的执行时间为0.06秒,SVm的执行时间为0.12秒,比照可以看出,BayeS分类器的执行效率最高,而SVm相对较差。4.2 模型应用分析与限制4.2.1 个人信用评估模型应用分析在一个个人信用评估模型建立起来之后,如何成功地实施这个模型会涉及很多问题:使用什么样的临界分值、是否完全依赖信用评估模型给出的分数以及如何对评估模型给出的分数进行修正等等。(1)临界分值的选择消费信贷申请客户的个人信用得分在什么区域内可以被认为是违约风险较小的客户
15、,从而批准该申请人的贷款申请,即如何确定违约客户与履约客户的的临界分值问题,是需要解决的重要问题。在信用评估领域的根木准那么之一就是信用评结果的稳定性,也就是说信用评估值在一定时间内要稳定地保持在同一水平上,即使个人情况发生一些变动,信用评估值的变动也不宜过大。也就是说,如果商业银行目前的贷款申请批准率为60%,那么新的个人信用评分模型的临界分值设置的贷款申请批准率下降或上升都是不妥的。因此,在实际操作中可以根据银行既有的贷款申请批准率来决定个人信用评分的临界分值。(2)个人信用评估值的人工修正由于我国商业银行在建立个人信用评估模型方面尚处于起步阶段,模型设计仍不够合理,消费信贷申请人的个人信
16、息缺失情况比拟严重,因此在个人信用评估模型给出某客户的信用评分后,专业的信贷审批人员可以根据己有的审批经验对客户的信用评分和放贷决策进行修正。当贷款审批人掌握了建立信用评估模型时所不具有的信息,如一个信用分数很高的申请人被卷入到某项经济诉讼中,或信用分数很低的申请人刚刚得到了一份新工作,在这种情况下,贷款审批人员可以根据实际情况对该申请人的信用评分进行重新评价。另外一种情况是一个客户按信用得分评价时会被拒绝但商业银行仍给予放贷。例如,如果授信机构长期来看,当地大学生可能是一个潜在的客户群体,即使按目前的状况他们的信用评分无法到达临界分值,但贷款审批人员仍可能批准其中的一局部人以期培养一些忠诚客
17、户。第三种情况是当贷款审批人感到申请人有某种不能解释的违约倾向时,他的经验告诉他批准该申请是不明智的,此时审批人会采用人工修正。一般情况下,商业银行会给予信贷审批人员一定的人工修正权限,将个人信用评分在某个合理范围内进行调整。4.2.2 个人信用评估模型应用限制虽然信用评估模型有许多优点,但是这些模型本身也有一些限制。首先是拒绝推论。所谓拒绝推论,即申请被拒绝者的数据不再纳入评分系统,导致样本选取的非随机性。只有被银行接受了的客户,其账户业绩表现的信息(是违约还是履约)才是可知的,但这样就忽略了被拒绝的客户,他们的信息不会包含在构建模型的数据库中,因此就没有时机来确知他们的信用价值性。因而,样
18、本将会是有偏的(也就是不同于一般总体),其中履约客户的作用大大的得到了表现。使用这一样本得到的信用评估模型通常将无法在完全的总体中表现良好,因为用于购建模型的数据与将模型应用到现实的数据存在差异。其次,对于消费贷款中个人资信评估的指标选取尚缺全面性,文中的指标变量选取是结合前人研究成果和现实可行性提出的,由于客观原因存在一定局限性,随着信息数据库完善,指标体系也应该根据预测效果不断修正。还要指出本文所纳入样本集的客户全部是己经获得商业银行贷款批准的,所以研究总体只是己经获得贷款资格的客户的行为表现情况,随着经济开展可以将一局部未获得贷款资格的借款人也纳入观察集合中,或者随着技术开展完善,可以根
19、据获贷款资格借款人的分布特征变化推断出未获得贷款资格的借款人特征变量信息,进而研究全部潜在客户的行为表现特征,可以增强金融机构的管理能力和盈利能力。第三,未考虑宏观经济环境因素的影响0经济环境的变化直接影响到商业银行的供应本钱,进而影响到其利润水平,消费贷款的利率也会产生一定的变化。同时,经济环境的变动也将直接影响到借款人的收入水平,进而影响到其还款意愿以及还本付息的能力。所以,经济环境应是信用评估模型中的一个重要影响因素,但因为经济环境本身难以量化,而且它的影响是多方面的,因此在模型中难以表达。本文的设想是在个人信用评估模型给出消费信贷申请客户的信用评分根底上,将宏观经济环境因素作为缓和因素
20、考虑,尤其是对于完全依靠信用评分无法做出贷款决定的客户进行宏观经济环境因素的考虑。第四,与信用体系建设较兴旺的国家相比,我国作为一个开展中国家,由于法律体系、个人观念、社会文化、经济状况等方面与国外存在差异,导致影响个人信用评估的因素同兴旺国家存在一些不同点(如“性别、“婚姻状况等指标变量)。因此,在借鉴国外成熟的个人信用评估模型时,不能盲目地全盘接受,要经过理论分析和适用性检验。我国商业银行在建立消费信贷申请人个人信用评估系统时,被拒绝给与贷款的申请人信息不再纳入评分系统,只有被银行接受客户的履约记录才是可知的,本文数据的选取也基于这一现实。因此,用于构建模型的数据与现实数据存在差异,这是本
21、文研究未解决的一个问题。随着我国个人信用信息根底数据库的投入运行,商业银行的数据获取将更便利,如果可以将被拒绝客户的信用信息纳入商业银行的评分系统,无疑将增强商业银行的风险管理能力和盈利能力。除了上面强调的局限性之外,毫无疑问资信评估将会继续成为在消费信贷中预测消费信贷风险的主要工具,研究出切合我国国清的消费信贷个人资信评估模型的商业银行将在消费信贷风隆管理方面获得优势。第五章后记5.1 任务分配杨哲铭:统筹与协调邱宇芳:第一章概论石玉:第二章数据准备与预处理常开拓胡梓贤:第三章建立模型与分类实现于洋:第四章模型评估与比拟5.2 个人收获在这个基于weka平台的个人信用评级模型设计与实现的模型中,做了模型的评估和比拟局部,预测精确度的比拟和效率的比拟,让我可以当利用模型对样本中的客户进行分类时,对各种模型进行比拟,以便提高精确度。在对模型做分类的时候用了贝叶斯分类器、JT8树、SVm三种方法进行分类,协助我了解了不同的分类算法,并且针对现有数据,经过结果比照,评估出了在这个工程中贝叶斯分类器分类效果的最好。在小组合作中,一方面消化了一局部数据挖掘的知识,另一方面和同学在沟通合作中增进了友谊,算是在短期之内获益匪浅。