XX 第二部分数据挖掘与统计决策神经网络ppt课件.ppt

资源描述

《XX 第二部分数据挖掘与统计决策神经网络ppt课件.ppt》由会员分享，可在线阅读，更多相关《XX 第二部分数据挖掘与统计决策神经网络ppt课件.ppt（80页珍藏版）》请在三一办公上搜索。

1、数据挖掘与统计决策方法神经网络教师：廖芹,引入问题： 1）如果有60个因素影响银行贷款，要判别是否给企业贷款，如何建立贷款判别模型？即如何求非线性关系f1： Y1 =f1（X1,X2,X60) , Y1取值1(贷款)，0(不贷款） 2)如何建立由“病人数、医生数、工作人员数、门诊所数、死亡率”对城市医疗能力的非线性综合评价模型？即如何求f2： Y2= f2 (X1,X2,X5), Y2、Xi取值 V,g,a,b? 3)如何建立食品（交通、生产、投资）安全风险的预测模型？,思路：1）对收集数据进行处理分析，提取有代表性样本； 2）构建输入变量与输出变量之间的函数关系F1，F2，使F1，

2、F2逼近实际关系f1,f2，并替代f1,f2应用。 3）可以采用样本学习的神经网络方法建立这些模型。,四、数据挖掘方法神经网络,主要问题： 1）什么是神经网络？2）如何建立神经网络？3）如何应用神经网络？,(人工)神经网络（ARTIFICIAL NEURAL NETWORK 简记ANN)：一种模仿大脑神经网络结构和功能而建立的信息处理系统。表示神经网络的输入与输出变量之间关系的模型，称为神经网络模型。,两层神经网络,三层神经网络,四、数据挖掘方法神经网络,思路：通过下面已证明定理构建神经网络模型,通过线性组合的映射、再线性组合形式构建函数,构建函数逼近实际函数,关键问题：如何求构建模型的参

3、数Wij,i,Ci?,思路：通过样本学习不断获取信息修正模型参数，以求出最优的一组模型参数。步骤：1）首先随机生成模型参数， 2) 代入样本输入Xi到模型； 3）用参数与Xi的值计算模型输出O； 4）计算模型输出O与样本输出Y偏差D=O-Y, 5)以偏差D修正模型参数， 6）重复2）5）步骤，使模型输出O与样本输出Y偏差D最小。,四、数据挖掘方法神经网络,常用的映射函数为：,四、数据挖掘方法神经网络,P105,四、数据挖掘方法神经网络,补充,四、数据挖掘方法神经网络,补充,四、数据挖掘方法神经网络,P104,四、数据挖掘方法神经网络,感知机建立过程：,P106,四、数据挖掘方法神经网络,Y,0

4、,0,P106,四、数据挖掘方法神经网络,0,0,1,1,P106,四、数据挖掘方法神经网络,P106,四、数据挖掘方法神经网络,补充,（总结）,四、数据挖掘方法神经网络,补充,四、数据挖掘方法神经网络,补充,四、数据挖掘方法神经网络,P106,四、数据挖掘方法神经网络,Y,以Y=1记A类，以Y=0记B类,如果改变1号样本，即 x1=1,x2=1,y=1，改为 x1=1,x2=1,y=0，上述修正的参数为 O1=f(W11*X1+W12*X2)=f(0*1+0*1)=f(0)=0,误差为 D=O1-y1 =0-0=0修正量: W11(1)=d*X1=0, W12(1)=d*X2=0, 修正参数

5、：W11(1)=W11(0)+W11(1)=0+0=0, W12(1)=W12(0)+W12(1)=0+0=0再学习2号样本(x1=1,x2=0,y=1):O2=f(0*1+0*0)=0,Y2=1, 误差为D=Y2-O2=1-0=1， W11(2)=d*X1=1, W12(2)=d*X2=0, W11(1)=1， W12(1)=0检验3号样本(x1=0,x2=1,y=1):O3=f(1*0+0*1)=0,Y3=1, 误差为D=Y3-O3=1-0=1检验4号样本(x1=1,x2=1,y=1):O4=f(0*0+0*0)=0,Y4=0, 误差为D=Y4-O4=0-0=0此时，误差已增大，即感知机模

6、型对于非线性样本识别能力很弱。,问题：对于非线性样本，应该如何设计网络的结构、映射和输入、输出？,四、数据挖掘方法神经网络,Y 0,P107,四、数据挖掘方法神经网络,P107,四、数据挖掘方法神经网络,P108,四、数据挖掘方法神经网络,隐,修正公式推导见下面,常用的输入输出定义,1、输入层变量定义： 1）定义为自变量个数x1,x2,xn 2） x1,x2,xn已类型一致、无量纲； 3）输入节点数一般等于变量数。,2、隐层节点变量数L定义： 1）一般定义：输入节点变量数L输出节点变量数； 2）优化定义（1）对于可能的隐节点数L1,L2,Lm,指定学习次数，对相同的输入输出，比较不同隐节点数

7、下的网络误差，误差小的对应隐节点数最优。（2）对于可能的隐节点数L1,L2,Lm,指定网络误差，对相同的输入输出，比较不同隐节点数下的学习次数，达到误差的最少学习次数的隐节点数最优。,四、数据挖掘方法神经网络,3、输出节点变量定义： 1)由于网络输出（计算输出）受映射函数值域影响，所以样本输出的定义域需要转换为与网络输出定义域一致。 2）样本输出可以定义为1个或多个输出 3）对应样本的一个或多个输出，网络输出也有一个或多个输出定义。,四、数据挖掘方法神经网络,神经网络样本输出定义级别转换为区间（0，1）的值,四、数据挖掘方法神经网络,神经网络模型输出定义区间（0，1）值转换为级别,例：当输出

8、是0.55时，由于 0.55-0.63 =0.08 0.55-0.37 =0.18 所以，判别输出Y属于3级。,四、数据挖掘方法神经网络,神经网络模型输出定义区间（0，1）值转换为级别,四、数据挖掘方法神经网络,BP模型应用XOR问题Clementine求解,问题：对修改X1=1,X2=1,Y=1为X1=1,X2=1,Y=0的非线性样本（称为XOR问题），应用数据挖掘软件Clementine建立具有非线性映射特点的BP模型，求解结果如下：,对应隐节点数选择不同，BP神经网络模型结果不同：,四、基于数据挖掘的决策方法概述神经网络,图: 5个隐节点的结果输出,BP模型应用XOR问题Clementi

9、ne求解,P108p109,四、数据挖掘方法神经网络,P109,四、数据挖掘方法神经网络,P109P110,四、数据挖掘方法神经网络,评价分四级： v非常好， g好， a 一般， b差,P123,四、数据挖掘方法神经网络,城市医疗能力综合评价BP模型建立,四、数据挖掘方法神经网络,城市医疗能力综合评价BP模型建立,需要将定性的取值转换为定量取值，并映射到【0，1】,四、数据挖掘方法神经网络,P125,四、数据挖掘方法神经网络,P125,四、数据挖掘方法神经网络,用一个输出变量表示,P125,四、数据挖掘方法神经网络,P126,四、数据挖掘方法神经网络,级别表示 V V b a a b a v

10、g g,P126,四、数据挖掘方法神经网络,四种动物识别模型的建立,补充,四、数据挖掘方法神经网络,应改1为t,四种动物识别模型的建立,补充,四、数据挖掘方法神经网络,O=(O1,O2,O3,O4),O1,O2,O3,O4,Oi(0,1),i=1,2,3,4,O,O,O(0,1),1)多输出表示：,2)单输出表示：若输出用Y表示，则Y转换为【0.1，0.9】中的值。,四种动物识别模型的建立,补充,四、数据挖掘方法神经网络,补充,四、数据挖掘方法神经网络,Clementine辅助城市医疗能力综合评价BP模型建立,1、导入评价样本数据并选择模型；2、设置参数,四、数据挖掘方法神经网络,四、数据挖

11、掘方法神经网络,Clementine辅助城市医疗能力综合评价BP模型建立,Clementine辅助城市医疗能力综合评价BP模型建立,四、数据挖掘方法神经网络,问题：如果直接以医疗评价医疗能力的五个因素变量的连续数据作为神经网络的输入，而不转为四个级别的取值V,g,a,b,这样建立模型是否可以？,Clementine辅助城市医疗能力综合评价BP模型建立,四、数据挖掘方法神经网络,城市医疗能力综合评价BP模型-多输出设计,四、数据挖掘方法神经网络,城市医疗能力综合评价BP模型-多输出设计,城市医疗能力综合评价BP模型-多输出设计,模型运行：用鼠标单击数据excel节点，然后双击模型结果节点，把结果

12、加入到流中；用鼠标单击模型结果节点，然后双击窗口下方的输出中的“表”节点，将“表”节点加入到流中。得到模型结果如下：,实际样本输出,模型输出,模型检验：为了对未参与建模的数据进行预测，可以将数据导入流中，如下图所示连接模型。数据类型定义与建模样本一致。可以选择运行“表”节点，得到预测结果。,城市医疗能力综合评价BP模型-多输出设计,城市医疗能力综合评价BP模型-多输出设计,模型结果对比：为了将四输出BP神经网络与1输出BP神经网络结果可以对比，需要将四输出神经网络的结果进行转换，将输出结果看成权重，对输出结果进行加权平均。例如天津四输出的预测结果为（0.0268,0,0,0.943），则医疗能

13、力平均值为=1.5*0.0268/(0.0268+0.943) -1.5*0.943/(0.0268+0.943)=-1.4171。,结论：选用多输出进行建模，模型的均分误差有所减小。,RBF神经网络(Radial Basis Function Neural Network) RBF神经网络是一种三层前馈式神经网络，由输入层、隐含层和输出层构成。,RBF结构,P114,四、数据挖掘方法神经网络,RBF神经网络模型特点： 1）输入层到隐层的映射是由径向基函数实现的非线性变换。当输入Xi接近类中心表示的隐结点时，网络响应较大，否则响应较小。 2）隐层到输出层的映射是线性变换。 3）只有一层权值参

14、数。仍采用负梯度修正权值的学习算法。,RBF（径向基函数）神经网络模型表示,类中心作隐结点,看作类半径,四、数据挖掘方法神经网络,四、数据挖掘方法神经网络,P115,四、数据挖掘方法神经网络,P115,RBF神经网络求解两值逻辑问题,补充,四、数据挖掘方法神经网络,RBF神经网络求解两值逻辑问题,补充,RBF神经网络求解两值逻辑问题,补充,四、数据挖掘方法神经网络,RBF神经网络求解两值逻辑问题,补充,四、数据挖掘方法神经网络,补充,四、数据挖掘方法神经网络,隐节点：,RBF神经网络求解两值逻辑问题,补充,四、数据挖掘方法神经网络,RBF神经网络求解两值逻辑问题,补充,四、数据挖掘方法神经网络

15、,RBF神经网络求解两值逻辑问题,补充,四、数据挖掘方法神经网络,Clementine12辅助RBF神经网络模型-城市医疗能力评价,Clementine12辅助RBF神经网络模型-城市医疗能力评价,四、数据挖掘方法神经网络,Clementine12辅助RBF神经网络模型-城市医疗能力评价,RBF神经网络,补充,四、数据挖掘方法神经网络,即hi=G(|x-ti|),样本xj代入后有gji=hji=G(|xj-ti|),有常数项,且i中心是ti,这里是通过LS估计量来求模型参数，而不是通过样本学习修正形式获取,RBF神经网络,四、数据挖掘方法神经网络,补充,RBF神经网络,补充,四、数据挖掘方法神

16、经网络,自组织（Kohonen)神经网络：,P118,四、数据挖掘方法神经网络,自组织（Kohonen)神经网络：,四、数据挖掘方法神经网络,问题：对于一组无指导（示教）的样本，未知聚类数，如何聚类?,思路:1）对于输入样本xi=(xi1,xi2,xin) 2）在平面上二维(x,y)表示N个神经元节点，使每神经元表示一输出类别； 3）随机生成对应神经元j的权值wj=(wj1,wj2,wjn)，就=1,2,N； 4）计算xi与wj的相似度Sji=1/(min xi-wj +a), 对应最大相似度的wj的神经元为j1 ； 5）定义j1的胜出领域j1,对进入领域的神经元对应权值进行修正： wj（k+

17、1）= wj (k)+wj (k+1) = wj (k)+ xi-wj , wj j1 ，是调整因子； 6）重复4）与5），并使领域j1逐步减少，最终领域只有一个对应最大相似度的wji的神经元ji*胜出，即样本xi输出是对应wji的神经元ji*= (xji,yji)表示的类别； 7）对每一输入x1， x2， xp，都有对应的二元表示的神经元类别,得到聚类结果； 8）对每一类进行优劣特征判别。,P118,二维(x,y)表示的神经元，其分别对应1）权值wj, 2)某一类别。,自组织（Kohonen)神经网络学习过程：,P120,四、数据挖掘方法神经网络,自组织（Kohonen)神经网络学习过程：

18、,P120,四、数据挖掘方法神经网络,自组织（Kohonen)神经网络学习过程：,P120,四、数据挖掘方法神经网络,由于优胜域的定义不同，可能导致聚类结果不同。软件中是以宽度、长度两参数定义优胜域。,自组织（Kohonen)神经网络学习过程：,P120,四、数据挖掘方法神经网络,自组织（Kohonen)神经网络学习过程:(已知一组关于不同年龄与性别人的用药数据）,四、数据挖掘方法神经网络,四、数据挖掘方法神经网络,自组织（Kohonen)神经网络聚类结果比较:(已知上市公司财务数据）,k-mean方法结果：也能把较相近样本归为一类，对于孤立点情况，以不同类划分。,Kohonen方法结果：每一类中的样本数相对一致，但类内相似性较弱，较偏重于样本数均衡的考虑。,宽度是5，长度是1的聚类结果,下转数据挖掘与统计决策的第三部分决策树分析、关联分析分析、遗传算法,谢谢！,

展开阅读全文

XX 第二部分数据挖掘与统计决策 神经网络ppt课件.ppt

XX 第二部分数据挖掘与统计决策神经网络ppt课件.ppt