数据挖掘与知识管理.ppt

上传人:小飞机 文档编号:5270416 上传时间:2023-06-21 格式:PPT 页数:22 大小:302.99KB
返回 下载 相关 举报
数据挖掘与知识管理.ppt_第1页
第1页 / 共22页
数据挖掘与知识管理.ppt_第2页
第2页 / 共22页
数据挖掘与知识管理.ppt_第3页
第3页 / 共22页
数据挖掘与知识管理.ppt_第4页
第4页 / 共22页
数据挖掘与知识管理.ppt_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《数据挖掘与知识管理.ppt》由会员分享,可在线阅读,更多相关《数据挖掘与知识管理.ppt(22页珍藏版)》请在三一办公上搜索。

1、第十章数据挖掘与知识管理,第一节 数据挖掘技术,一、数据挖掘1数据挖掘的概念数据挖掘(Data Mining,简称DM)是指在数据库或数据仓库中,利用各种分析技术和方法,将大量的历史数据进行分析、归纳和整合,提取有用信息,为组织的决策提供参考。,2决策中的数据挖掘在决策过程的智能阶段,数据挖掘起着重要的作用。在小型组织中,高层管理者对于发生了什么事情是十分清楚的,他们可以通过沟通发现问题并形成决策陈述。在大中型组织中,高层管理者不可能去关心每一件发生的事情,更不用说去了解每个细节的发展变化。在有完善的数据积累的组织中,每个细节总是以数据的形式很好地保存于数据库中,此时可根据决策者的要求开发数据

2、仓库。但数据仓库更适合于信息管理人员的习惯,直接通过数据仓库难以发现有价值的信息。,二、数据挖掘的过程数据挖掘的一般流程如图10-2所示,具体见第五部分的案例中。,三、数据挖掘的技术常见的数据挖掘技术有:1聚类分析(Clustering Analysis)。聚类方法主要有统计聚类和模糊聚类,通过聚类可以进行分类、预测和发现异常信息。2决策树(Decision Tree)。决策树方法被成功地应用于信用卡损失和不同的国际流通货币的时序预测等各种问题中。一般可用于探索问题、数据预处理和预测中。目前常用的有ID3、CHAID和CART等几种典型的算法。决策树算法的主要优点是直观,其缺点在于随着数据复杂

3、性的增加,分支数会增加,对数据仓库的搜索次数会增加,管理难度会加大。,3神经网络(Neural Network)。神经网络虽然在易用性和易理解性方面受到了限制,但其正确率很高。它通过学习发现规律,然后进行预测。神经网络可用于聚类、异常发现、特征制取和预测。4关联分析(Association Analysis)。关联分析方法是由Dovetail Solutions公司的Miguel Castro博士提供。它又称为MB“货篮子分析”,可用于销售配售、商店陈列、产品目录、定价和促销等方面。,5粗糙集方法(Rough Set)。在20世纪70年代,波兰学者Z.Pawlak和一些波兰的逻辑学家们一起从事

4、关于信息系统逻辑特性的研究。粗糙集理论是Pawlak于1982年提出的分析不完整、不确定性数据的新的数学理论。6遗传算法(Genetic Algorithms)。遗传算法是霍兰等人于20世纪40年代提出的。以生物进化的过程为基础,加以交叉、变异和选择运算,逐步得到问题的最优解。,四、基于Web的数据挖掘网络数据挖掘形式多样,根据不同的网络数据挖掘对象,人们将网络数据挖掘分为网络内容挖掘(Web Content Mining)、网络结构挖掘(Web Structure Mining)以及网络使用挖掘(Web Usage Mining)。,五、案例 犯罪程度预测表10-2 是关于违法犯罪涉嫌人员数

5、据仓库中的信息,根据属性建立其决策树。表10-2 违法犯罪涉嫌人员数据仓库中的信息,对上表中的属性值进行编号,得到表10-3。表10-3 对数据仓库中的属性进行编号,表10-3中,犯罪程度较轻有7个记录(s1=7),严重有10个记录(s2=10),此时I(7/17log2 7/1710/17log2 10/17)0.977对有无固定职业来说,s 110,s27,s113表示在无固定职业的记录中犯罪程度较轻的人数,s217则是在无固定职业的记录中犯罪程度严重的记录数,s124是在有固定职业的记录中犯罪程度较轻的记录数,s223是在有固定职业的记录中犯罪程度严重的记录数。I1(3/10log2 3

6、/107/10log2 7/10)0.881I2(3/7log2 3/74/7log2 3/7)0.985E(有无固定职业)10/170.8817/170.9850.924Gain(有无固定职业)=IE(有无固定职业)0.9770.9240.053,对于家庭经济状况而言,s112,s113,s219,I1(3/12log2 3/129/12log2 9/12)0.811s23,s122,s221,I2(2/3log2 2/31/3log2 1/3)0.918s32,s132,s230,I3(2/2log2 2/2)0E(家庭经济状况)12/170.8113/170.9182/170=0.734

7、Gain(家庭经济状况)=IE(家庭经济状况)0.9770.7340.243对于年龄而言,s14,s113,s211,I1(3/4log2 3/41/4log2 1/4)0.918s24,s122,s222,I2(2/4log2 2/42/4log2 2/4)1s36,s312,s324,I3(2/6log2 2/64/6log2 4/6)0.918s43,s410,s423,I4(3/3log2 3/3)0E(年龄)4/170.9184/1716/170.9183/1700.750Gain(年龄)IE(年龄)0.9770.7500.227,对于有无特长,s110,s116,s214,I1(6

8、/10log2 6/104/10log2 4/10)0.971s27,s121,s226,I2(1/7log2 1/76/7log2 6/7)0.592E(特长)10/170.5927/170.9710.815Gain(特长)IE(特长)0.9770.7480.162对于社会关系犯罪记录,s111,s117,s214,I1(7/11log2 7/114/11log2 4/11)0.946s26,s120,s226,I2(6/6log2 6/6)0E(社会关系犯罪记录)11/170.946=0.612Gain(社会关系犯罪记录)IE(社会关系犯罪记录)0.9770.6120.365,对于家庭和睦

9、状况,s19,s114,s215,I1(4/9log2 4/95/9log2 5/9)0.991s26,s122,s224,I2(2/6log2 2/64/6log2 4/6)0.918s32,s131,s231,I3(1/2log2 1/21/2log2 1/2)1E(家庭和睦状况)9/170.9916/170.9182/1710.966Gain(家庭和睦状况)IE(家庭和睦状况)0.9770.9660.011,对于本人有无犯罪记录,s18,s113,s215,I1(3/8log2 3/85/8log2 5/8)0.954s29,s124,s225,I2(4/9log2 4/95/9log2

10、 5/9)0.991E(本人有无犯罪记录)8/170.9549/170.9910.974Gain(本人有无犯罪记录)IE(本人有无犯罪记录)0.977-0.9740.003,对于违法记录次数,s14,s111,s213,I1(1/4log2 1/43/4log2 3/4)0.811s29,s125,s224,I2(5/9log2 5/94/9log2 4/9)0.991s34,s131,s233,I3(1/4log2 1/43/4log2 3/4)0.811E(违法记录次数)4/170.8119/170.9914/170.8110.906Gain(违法记录次数)IE(违法记录次数)0.9770.9060.071,表10-4 E和Gain的值,生成的决策树如图10-5所示。,现有嫌疑人张三和李四,其记录属性见表10-5。,对应决策树中的划分,张三和李四很有可能是严重犯罪,如第三个嫌疑人王五与李四相似,但无特长,则有可能是较轻的犯罪程度。,第二节 知识管理,一、知识(一)知识的概念(二)知识的分类(三)知识循环过程,二、知识表示(1)确定因子法。(2)主观贝叶斯方法。(3)D-S证据理论。(4)可能性理论。(5)批注理论。,三、知识管理知识管理的任务大致包括四个步骤:(1)使知识组织化;(2)提高知识密集度;(3)构建知识的基础框架;(4)创建知识环境。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号