《基于粗糙集和遗传神经网络集成的个人信用评价模型.ppt》由会员分享,可在线阅读,更多相关《基于粗糙集和遗传神经网络集成的个人信用评价模型.ppt(22页珍藏版)》请在三一办公上搜索。
1、1,东南大学系统工程研究所报告人:卢红科,基于粗糙集和遗传神经网络集成的 个人信用评价模型,2,目录,引言,RS和GA-NN集成模型,2,实证分析,3,1.引言,个人信用评价问题,商业银行零售信贷业务的不断发展,使得个人信用评价的重要性日益加强。个人信用评价是指商业银行根据个人的信用信息给出每个贷款申请者能够偿还贷款的可能性(Chen,Huang,2003)1。面对客户提出的贷款申请,银行需要根据客户提出的基本信息和以往的资信记录,包括姓名、年龄、家庭住址、职业、每月收入、信用卡消费纪录、以往贷款还贷纪录等,采用科学的方法对客户的信用进行评估,以决定是否向该客人户发放贷款(Lee等人,2003
2、)2。,4,1.引言,文献综述,随着人工智能技术的发展,包括人工神经网络(Artificial Neural Networks,ANN)、支持向量机(Support Vector Machine,SVM)、遗传算法(Genetic Algorithm,GA)、粗糙集(Rough Set,RS)以及各种方法相互结合的组合模型逐步应用到个人信用评价中来。Huang等人(2006)3将这些模型分为以功能为基础的方法(如GA、ANN等)和以归纳为基础的方法(如Apriori 算法、决策树、RS等)。同时,各种各样的研究着重于集成一些以功能为基础的模型,来提高分类精度。,5,1.引言,文献综述,朱兴德等
3、人(2003)4提出了一种基于GA的神经网络个人信用评估模型,利用标准GA和Solis&Wets算法的混合算法同时优化神经网络的结构和权重阈值系数。姜明辉等人(2008)5将GA与SVM 进行结合,构建了个人信用评估GA-SVM 模型,用GA来选择SVM参数,并通过GA适应度函数的设置,来控制给商业银行造成较大损失的“取伪”误判的发生。,6,1.引言,文献综述,对以归纳为主的算法,其主要的优点在于这些算法可以向决策者提供可理解的IF-THEN规则,帮助他们理解数据真实的内容。Huang等人(2006)3提出了一种两阶段遗传模型来研究信用评价模型,该模型通过遗传规划来提取IF-THEN规则,取得
4、了很好的分类效果。然而,以归纳为主的模型存在的主要问题是预测能力不强,如果一个样本新个体不符合任何规则,就无法确定它的信用类别6。,7,1.引言,为了结合两种模型的优点,柯孔林等人(2008)7将RS和BP神经网络进行组合,针对商业银行企业贷款业务,构造了五级分类评价模型。然而,BP神经网络存在一些问题,如稳定性差,容易陷入局部极值。此外,目前国内很少有学者将以归纳为基础的方法和以功能为基础的方法集成来研究商业银行个人信用评价问题,因此,本文提出了以RS和遗传神经网络(GA-Neural Network,GA-NN)集成的混合信用评价模型,通过基于GA的RS来约简信用评价指标,降低了GA-NN
5、输入层的结点数,提高了分类精度;通过RS来提取个人信用评价规则库,有利于决策者更好地掌握数据信息和执行信贷决策。,8,2.RS和GA-NN集成模型,RS和GA-NN集成的个人信用评价模型主要由两部分组成,见图1。第一部分是模型训练,包括三个步骤:(1)样本数据预处理:离散化和归一化;(2)应用GA简约评价指标;(3)采用RS,基于最小简约指标提取判别规则,形成个人信用评价判别规则库。第二部分是模型检验,将检验样本评价指标值与规则库进行匹配,会出现匹配和不匹配两种情况。用RS判别与规则库匹配的检验样本信用等级,GA-NN算法作为辅助模型,判别不与规则库任何规则匹配的检验样本信用等级。,分类结果,
6、9,2.RS和GA-NN集成模型,评价指标属性约简,在决策过程中,并不是属性越多越好,而是遵循样本的属性特征足够刻画样本特征的选择原则。这是因为属性过多时,样本中会更容易夹杂一些噪声数据,对于计算空间的要求以及算法的时间要求都会增加,增加问题的复杂性。因此,本文对样本进行知识约简。知识约简,就是指保持知识库分类能力不变的条件下,删除其中不相关或不重要的冗余知识。现有的约简算法,主要是是从RS的核出发,采用启发式搜索的方法构造所含条件属性最少的约简,即最小约简(陶志等人,2003)8。通过删除条件指标 的前后近似质量之差 来考察条件指标 对于决策属性D 的重要性,如果,则认为评价指标 对于决策属
7、性D 没有影响,可以在评价指标集中将其删除。本文采用GA寻找最小相对约简8:假设评价指标集合为,评价指标空间,染色体为长度为,制位串,每一位对应一个条件属性。若某位取值为1,则表示选择其对应的条件属性;,的二进,10,2.RS和GA-NN集成模型,评价指标属性约简,若某位取值为0,则去除其对应的条件属性。这样,每一个染色体个体对应了条件属性空间中的一个属性子集。定义自适应函数为(柯孔林等人,2008)7:,式中:L表示染色体 选择了的评价指标个数,Z表示染色体 覆盖决策表的行数,为评价指标个数,为训练样本数。,11,2.RS和GA-NN集成模型,信用评价规则生成,商业银行零售客户的数据库以二维
8、数据表的形式表示,决策表 表示为,表中的每一行描述一个零售客户,所有零售客户的集合称为论域,每一列描述一个属性,属性可以分为条件属性(评价指标)和决策属性(贷款与否),为属性集合,C 和D分别为评价指标集和决策属性集合,是属性 的值域 9。利用RS生成商业银行零售客户信用评价规则库是以决策表作为单位进行的,将GA约简的评价指标作为规则的前部,决策属性作为规则的后部,由此形成判别规则。若 为评价指标 的离散值,为决策属性D 的取值,则由简化后的评价指标生成的个人信用判别规则表示为:,12,2.RS和GA-NN集成模型,GA-NN构造,基于采用标准GA简约得到的最小评价指标集及相应的经过归一化之后
9、的标准化数据形成最新的学习样本,对GA-NN系统进行学习和训练。基本操作步骤如下:,(1)选择合适的参数,包括群体规模,交叉概率,和变异概率,(2)确定适应度函数,为期望输出,,为神经网络的输出,(3)随机产生一组初始染色体,计算每一个染色体的适应值,同时计算,群体的总适应值,(4)采用实数编码方法,本文把一组网络权值和阈值连接成一个GA中的染色体,13,2.RS和GA-NN集成模型,GA-NN构造,(5)计算每一串的选择概率,和累计概率,以轮盘赌方式,进行个体的选择;,(6)对每串产生随机数,,若,一组后,随机配对,对每一对,产生,则参加交叉操作,选出参加操作的,间的随机数以确定交叉的位置;
10、,(7)可能变异的位数的期望值为,,每一位为等概率变异,具体步骤,为:对每一串中的每一位产生,则该位变异,如果子代染色,体数达到,则已形成下一代,直至达到预定的进化代数为止,否则转向,第(5)步操作;,(8)利用BP神经网络进行微调。,14,3.实证分析,本文采用国内某商业银行的个人信贷数据集对该方法的有效性进行验证,共获得496个样本,其中正常客户和违约客户分别用1和2表示,样本数据集包含15个指标属性:性别(C1),年龄(C2),婚否(C3),教育程度(C4),健康状况(C5),家庭情况(C6),月均收入(C7),单位性质(C8),职业(C9),账户结算方式(C10),账户存在年限(C11
11、),贷款额(C12),贷款期限(C13),还款方式(C14),担保方式(C15)。本文采用随机抽样方法,从总体中随机抽取350个客户为训练集,剩余的146位客户作为检验样本集。训练集中正常和违约客户分别为301位和49位,检验样本集中正常和违约客户分别为132位和14位。,样本选择,15,3.实证分析,表1 评价指标属性离散化区间,利用RS进行属性简约时,需要将连续属性离散化。在本文选择的15个属性里,年龄、账户存在年限、贷款金额需要进行离散化处理。参考文献5(姜明辉,袁绪川,2008),对以上3个连续指标离散区间划分标准,同时根据样本在各属性上的分布情况,得到表1的离散化结果。,数据离散化,
12、16,3.实证分析,属性约简,通过GA求得训练样本的最小约简共有3个,分别为C1,C2,C6,C7,C8,C9,C12,C14,C2,C6,C7,C8,C9,C10,C12,C14,C2,C6,C7,C8,C9,C11,C12,C14。根据最大聚类比率公式(柯孔林,冯宗宪,2008)7,选择 C2,C6,C7,C8,C9,C10,C12,C14产生信用评价规则,共产生138条,限于篇幅文本选择支持数较多的部分规则列于表2中,每一行表示一个信用评价规则,比如第一行可以表示为:如果C2=4,C6=3,C7=4 C8=3,C9=5,C10=3,C12=2,C14=2,则该客户信用良好,相应规则数为9
13、。,表2 个人信用判别规则,17,3.实证分析,GA-NN模型,在基于GA的BP神经网络结构中,输入层有8个神经元,输出层有2个神经元,设定隐层有6个神经元。如果评价的结果为正常贷款,则输出(1,0),如果评价结果为违约,则应输出(0,1)。本文中,取种群规模为60,最大进化数为1000,交叉概率0.5,变异概率0.001,设置学习率为0.01,训练误差为0.05,训练最大数为5000。在编码过程中,染色体定义为,18,3.实证分析,将146个检验样本客户与信用评价规则库进行比较,有111个客户的评价指标与规则相匹配,可以将其判定为相应规则的信用等级,见表3。剩余的35个检验样本不与任何规则匹
14、配,分别将它们的标准数据输入到已训练完成的GA-NN中,根据网络输出的最大值判别信用等级,结果见表4。,表3 RS规则判别结果,表4 GA-NN判别结果,19,3.实证分析,由表3和表4可知,RS和GA-NN集成模型对146个检验样本的正确判别样本数为119个,总体正确判断率为81.51%,其中正常、违约的正确判断率分别为:82.58%和71.43%。同时将检验样本的模型预测结果列于表5,括号外的数字为检验样本数,括号内的数字为平均误判率。从表中可知,RS提取的规则对检验样本的平均误判率要低于GA-NN,但当RS提取的规则无法判别检验样本时,GA-NN作为辅助的判别方法其预测精度比较理想。可见
15、,基于RS和GA-NN的集成模型预测精度较高,鲁棒性较强,对商业银行零售客户的信用等级有很好的预测能力。,表3检验样本预测精度,20,3.结论,本文将人工智能领域中的RS理论结合本文构造的GA-NN,针对国内商业银行零售信贷业务,构建了适合我国商业银行个人信用等级分类需要的评价模型。通过基于GA的RS来约简信用评价属性,降低了GA-NN输入层的结点数。通过RS进行规则提取,从而建立信用评价规则库,有利于银行客户经理进行快速、有效决策。同时,用GA-NN作为辅助的判别方法,进一步弥补了RS的不足,提高了信用评价的准确度。最后,利用国内某商业银行的个人贷款数据集进行实证,取得了良好的分类预测效果。
16、现阶段主要的工作是:解决代价敏感以及数据不平衡的问题,构建“基于改进粒子群算法的代价敏感支持向量机模型”,利用粒子群算法来选择代价敏感支持向量机中(CS-SVM)的核函数参数以及惩罚函数C,并将该模型应用于“贷款违约判别”。目前只剩下实证部分。,21,参考文献,1 Chen M C,Huang S H.Credit scoring and rejected instances reassigning through evolutionary computation techniques J.Expert Systems with Applications,2003,24(4):433441.2
17、 Lee T S,Chiu C C,Lu C J,et al.Credit scoring using the hybrid neural discriminant technique J.Expert Systems with Applications,2003,23(3):245254.3 Huang J J,Tzeng G H,Ong C S.Two-stage genetic programming(2SGP)for the credit scoring model J.Applied Mathematics and Computation,2006,2(174):1039-1053.
18、4 朱兴德,冯铁军.基于GA神经网络的个人信用评估 J.系统工程理论与实践,2003,23(12):70-76.5 姜明辉,袁绪川.个人信用评估GA-SVM模型的构建与应用 J.合肥工业大学学报,2008,31(2):267-283.6 Ahn B S,Cho S S,Kim C Y.The integrated methodology of rough set theory and artificial neural network for business failure prediction J.Expert Systems with Applications,2000,18(2):65
19、-74.7 柯孔林,冯宗宪.基于粗糙集和神经网络集成的贷款风险5级分类 J.控制理论与应用,2008,25(4):759-763.8 陶志,许宝栋,汪定伟,等.基于遗传算法的粗糙集知识约简方法 J.系统工程,2003,21(4):116-1229 Beynon M J,Peel M J.Variable precision rough set theory and data discretization:An application to cooperate failure prediction J.The international Journal of Management Science,2001,29(6):561-576.,22,The end,Thank you!,