数据挖掘与知识发现 课程课件.ppt

上传人:牧羊曲112 文档编号:3051778 上传时间:2023-03-10 格式:PPT 页数:94 大小:786.50KB
返回 下载 相关 举报
数据挖掘与知识发现 课程课件.ppt_第1页
第1页 / 共94页
数据挖掘与知识发现 课程课件.ppt_第2页
第2页 / 共94页
数据挖掘与知识发现 课程课件.ppt_第3页
第3页 / 共94页
数据挖掘与知识发现 课程课件.ppt_第4页
第4页 / 共94页
数据挖掘与知识发现 课程课件.ppt_第5页
第5页 / 共94页
点击查看更多>>
资源描述

《数据挖掘与知识发现 课程课件.ppt》由会员分享,可在线阅读,更多相关《数据挖掘与知识发现 课程课件.ppt(94页珍藏版)》请在三一办公上搜索。

1、数据挖掘与知识发现 课程 2016、2,提 纲,知识发现与数据挖掘的基本概念数据挖掘方法和技术数据挖掘的知识表示,知识发现与数据挖掘的基本概念,知识发现的定义知识发现的研究问题知识发现的过程知识发现系统的结构,知识发现的定义(KDD,Knowledge Discovery in Database),知识发现是用一种简洁的方式从大量数据中抽取信息的一种技术,所抽取的信息是隐含的、未知的,并且具有潜在应用价值。知识发现可看成是一种有价值信息的搜寻过程,它不必预先假设或提出问题,仍然能够找到那些非预期的令人关注的信息,这些信息表示了不同研究对象之间的关系和模式。它还能通过全面的信息发现与分析,找到有

2、价值的商业规则。知识发现意味着在数据仓库或数据集市的几千兆、几万兆字节数据中寻找预先未知的商业模式与事实。,知识发现的研究问题,定性知识和定量知识的发现知识发现方法知识发现的应用,知识发现的过程,数据准备数据挖掘结果的解释和评估,知识发现的过程,数据准备数据集成:对数据进行合并处理、数据检查和清洗工作数据选择:缩小处理数据的范围,提高数据挖掘的质量数据预处理:削减数据维数或降维,克服数据挖掘工具的局限性,知识发现的过程,数据挖掘探索性数据分析:利用图形化方式对数据进行探索描述建模:描述数据的所有特征预测建模:建立一个根据已知变量预测其它变量的模型分类回归寻找模式和规则:进行模式探测根据内容检索

3、:根据用户感兴趣的模式建立相似的模式,知识发现的过程,结果的解释和评估结果的解释结果不满足用户要求,换一种挖掘方法结果非常抽象,换一种容易理解的方法结果的评估所采用的数据挖掘技术的有效性用于挖掘的数据质量和数量,知识发现系统的结构,知识发现系统管理器知识库和商业分析员数据仓库的数据库接口数据选择知识发现引擎知识发现评价知识发现描述,商业分析员,数据仓库,知识库,接口数据库,数据选择,知识发现引擎,知识发现评价,知识发现描述,知识发现管理器,知识发现系统的结构,知识发现系统管理器:作用是控制并管理整个知识发现过程,商业分析员,数据仓库,知识库,接口数据库,数据选择,知识发现引擎,知识发现评价,知

4、识发现描述,知识发现管理器,知识发现系统的结构,知识库和商业分析员知识库包含了源于各方面的知识。商业分析员要按一种有效的方式指导关注信息的发现。,商业分析员,数据仓库,知识库,数据库接口,数据选择,知识发现引擎,知识发现评价,知识发现描述,知识发现管理器,知识发现系统的结构,数据仓库的数据库接口知识发现系统的数据库接口可以直接与数据仓库通信。,商业分析员,数据仓库,知识库,数据库接口,数据选择,知识发现引擎,知识发现评价,知识发现描述,知识发现管理器,知识发现系统的结构,数据选择确定从数据仓库中需要抽取的数据及数据结构,商业分析员,数据仓库,知识库,数据库接口,数据选择,知识发现引擎,知识发现

5、评价,知识发现描述,知识发现管理器,知识发现系统的结构,知识发现引擎将知识库中的抽取算法提供给数据选择构件抽取的数据,商业分析员,数据仓库,知识库,数据库接口,数据选择,知识发现引擎,知识发现评价,知识发现描述,知识发现管理器,知识发现系统的结构,知识发现评价有助于商业分析员筛选模式,选出那些关注性的信息,商业分析员,数据仓库,知识库,数据库接口,数据选择,知识发现引擎,知识发现评价,知识发现描述,知识发现管理器,知识发现系统的结构,知识发现描述发现、评价并辅助商业分析员在知识库中保存关注性发现结果以备将来引用,并保持知识发现与管理人员的通信,商业分析员,数据仓库,知识库,数据库接口,数据选择

6、,知识发现引擎,知识发现评价,知识发现描述,知识发现管理器,知识发现与数据挖掘的基本概念,数据挖掘的进化历程数据挖掘的任务数据挖掘的分类数据挖掘的对象数据挖掘与专家系统的区别,知识发现与数据挖掘的基本概念,数据挖掘的进化历程数据挖掘的任务数据挖掘的分类数据挖掘的对象数据挖掘与专家系统的区别,数据挖掘的进化历程,数据挖掘的进化历程,数据挖掘的范围 数据库可以由此拓展深度和广度,数据挖掘的进化历程,数据挖掘的范围 数据库可以由此拓展深度和广度,数据挖掘的范围,“数据挖掘”这个名字来源于它有点类似于在山脉中挖掘有价值的矿藏在商业应用里,它就表现为在大型数据库里面搜索有价值的商业信息这两种过程都需要对

7、巨量的材料进行详细地过滤,并且需要智能且精确地定位潜在价值的所在。对于给定了大小的数据库,数据挖掘技术可以用它如下的超能力产生巨大的商业机会:自动趋势预测 自动探测以前未发现的模式,数据挖掘的范围,“数据挖掘”这个名字来源于它有点类似于在山脉中挖掘有价值的矿藏在商业应用里,它就表现为在大型数据库里面搜索有价值的商业信息这两种过程都需要对巨量的材料进行详细地过滤,并且需要智能且精确地定位潜在价值的所在。对于给定了大小的数据库,数据挖掘技术可以用它如下的超能力产生巨大的商业机会:自动趋势预测 自动探测以前未发现的模式,自动趋势预测,数据挖掘能自动在大型数据库里面找寻潜在的预测信息。传统上需要很多专

8、家来进行分析的问题,现在可以快速而直接地从数据中间找到答案。一个典型的利用数据挖掘进行预测的例子就是目标营销。数据挖掘工具可以根据过去邮件推销中的大量数据找出其中最有可能对将来的邮件推销作出反应的客户。,数据挖掘的范围,“数据挖掘”这个名字来源于它有点类似于在山脉中挖掘有价值的矿藏在商业应用里,它就表现为在大型数据库里面搜索有价值的商业信息这两种过程都需要对巨量的材料进行详细地过滤,并且需要智能且精确地定位潜在价值的所在。对于给定了大小的数据库,数据挖掘技术可以用它如下的超能力产生巨大的商业机会:自动趋势预测 自动探测以前未发现的模式,自动探测以前未发现的模式,数据挖掘工具扫描整个数据库并辨认

9、出那些隐藏着的模式,比如通过分析零售数据来辨别出表面上看起来没联系的产品,实际上有很多情况下是一起被售出的情况。数据挖掘技术可以让现有的软件和硬件更加自动化,并且可以在升级的或者新开发的平台上执行。当数据挖掘工具运行于高性能的并行处理系统上的时候,它能在数分钟内分析一个超大型的数据库。这种更快的处理速度意味着用户有更多的机会来分析数据,让分析的结果更加准确可靠,并且易于理解。,数据挖掘的进化历程,数据挖掘的范围 数据库可以由此拓展深度和广度,数据库可以由此拓展深度和广度,深度上,允许有更多的列存在。以往,在进行较复杂的数据分析时,专家们限于时间因素,不得不对参加运算的变量数量加以限制,但是那些

10、被丢弃而没有参加运算的变量有可能包含着另一些不为人知的有用信息。现在,高性能的数据挖掘工具让用户对数据库能进行通盘的深度遍历,并且任何可能参选的变量都被考虑进去,再不需要选择变量的子集来进行运算了。广度上,允许有更多的行存在。更大的样本让产生错误和变化的概率降低,这样用户就能更加精确地推导出一些虽小但颇为重要的结论。,知识发现与数据挖掘的基本概念,数据挖掘的进化历程数据挖掘的任务数据挖掘的分类数据挖掘的对象数据挖掘与专家系统的区别,数据挖掘的任务,关联分析时序模式聚类分类偏差检测预测,数据挖掘的任务,关联分析时序模式聚类分类偏差检测预测,关联分析,在数据记录的数据项之间发掘关联关系,某些数据项

11、的出现预示着该记录中其它一些数据项出现的可能。面包和牛奶的故事,关联分析,关联规则的形式:支持度Support:表示该规则所代表的事例占全部事例的百分比置信度Confidence:表示该规则所代表事例占满足前提条件事例的百分比,数据挖掘的任务,关联分析时序模式聚类分类偏差检测预测,时序模式,给定一段时间内的数据记录,发掘记录间的相关性,当前记录中某些数据项的出现预示着其它数据项在随后记录中出现的可能性。纵向的关联,数据挖掘的任务,关联分析时序模式聚类分类偏差检测预测,聚类,将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。,聚类,聚类原则:同一类别的对象间距离尽可能小;不同类别的对

12、象间距离尽可能大。考虑对象间的相似性问题,数据挖掘的任务,关联分析时序模式聚类分类偏差检测预测,分类,给定属于不同类型的数据记录,根据记录中数据项的特征为每种类型生成分类模型。分类模型用于预测新的数据记录所属类型。汽车销售的例子必须事先给出分类的标号,分类,决策树分类:,规则分类:IF()Then()Else(),数据挖掘的任务,关联分析时序模式聚类分类偏差检测预测,偏差检测,在数据分析中发现有很多异常情况存在于数据库中,我们可以根据这种异常情况获得很多有用的信息用于统计试验检测信用卡欺骗的例子,数据挖掘的任务,关联分析时序模式聚类分类偏差检测预测,预测,利用历史数据或数据分布依据一定的模型计

13、算出数值数据或识别出未来分布趋势等。用于分类的预测和用于回归的预测,数据挖掘的算法,关联分析Apriori,AprioriTid序列分析AprioriAll,AprioriSome,DynamicSome数据分类RIPPER,ID3,C4.5,Naive Bayes,知识发现与数据挖掘的基本概念,数据挖掘的进化历程数据挖掘的任务数据挖掘的分类数据挖掘的对象数据挖掘与专家系统的区别,数据挖掘的分类,数据挖掘的分类,根据挖掘的数据库类型分类 根据挖掘的知识类型分类 根据应用分类 根据所用的方法和技术分类,数据挖掘的分类,根据挖掘的数据库类型分类 根据挖掘的知识类型分类 根据应用分类 根据所用的方法

14、和技术分类,根据挖掘的数据库类型分类,与数据库匹配的数据挖掘技术分类关系数据挖掘非关系型数据挖掘处理的数据的特定类型分类空间的数据挖掘时间序列的数据挖掘文本的数据挖掘多媒体的数据挖掘,数据挖掘的分类,根据挖掘的数据库类型分类 根据挖掘的知识类型分类 根据应用分类 根据所用的方法和技术分类,根据挖掘的知识类型分类,关联时序聚类分类偏差检测预测分析,数据挖掘的分类,根据挖掘的数据库类型分类 根据挖掘的知识类型分类 根据应用分类 根据所用的方法和技术分类,根据应用分类,金融行业的数据挖掘电信行业的数据挖掘保险行业的数据挖掘医药行业的数据挖掘税务部门的数据挖掘,数据挖掘的分类,根据挖掘的数据库类型分类

15、 根据挖掘的知识类型分类 根据应用分类 根据所用的方法和技术分类,根据所用的方法和技术分类,归纳学习法仿生物技术法公式发现法统计分析法模糊数学法可视技术法,根据所用的方法和技术分类,归纳学习法仿生物技术法公式发现法统计分析法模糊数学法可视技术法,归纳学习法,归纳学习是符号学习中研究得最为广泛得一种方法。给定关于某个概念的一系列已知的正例和反例,其任务是从中归纳出一个通用的概念描述归纳学习能够获得新的概念,创立新的规则,发现新的理论它的一般操作是泛化(generalization)和特化(specialization)泛化用来扩展一假设的语义信息,以使其能够包含更多的正例,应用于更多的情况特化是

16、泛化的相反的操作,用于限制概念描述的应用范围,根据所用的方法和技术分类,归纳学习法仿生物技术法公式发现法统计分析法模糊数学法可视技术法,仿生物技术法,神经网络方法类遗传算法类,神经网络方法类,所谓人工神经网络(Artificial Neural network)是指利用工程技术手段模拟人脑神经网络的结构和功能的一种技术系统。它是一种大规模并行的非线性动力学系统,简称为神经网络人脑是由大量的神经元通过及其丰富和完善的联接而形成的一个灵活多变的、错综复杂的神经网络,神经网络方法类-理论基础,神经元结构图,神经网络方法类,人工神经元结构模型图 w1 w2 wn,ui,Yi,x1,x2,xn,f,神经

17、网络方法类,人工神经元:又称为处理单元、节点或短期记忆 xi:神经元的输入wi:突触连接强度即权值ui:神经元的内部状态:阈值 Yi:神经元的输出,规定神经元在一定输入的作用下,超过某一阈值,神经元才兴奋,才能引起输出是一简单非线性激活又称为神经元的功能函数,仿生物技术法,神经网络方法类遗传算法类,遗传算法类,遗传算法是模拟生物进化过程的算法:分别由繁殖(选择)、交叉(重组)、变异三个基本算子,根据所用的方法和技术分类,归纳学习法仿生物技术法公式发现法统计分析法模糊数学法可视技术法,公式发现法,该类对若干变量进行一定的数学运算,求得相应的数学公式。由物理定律发现系统BACON和经验公式发现系统

18、FDD构成。物理定律发现系统BACON是对数据项进行初等数学运算形成组合数据项,若它的值为常数项,我们就得到了组合数据项等于常数的公式,该系统有BACON.1BACON.5五个版本。经验公式发现系统FDD是对两个数据项交替取初等函数后与另一数据项的线性组合若为直线时,就找到了数据项的初等函数的线性组合公式,根据所用的方法和技术分类,归纳学习法仿生物技术法公式发现法统计分析法模糊数学法可视技术法,统计分析法,求目标数据的最大值、最小值、总和和平均值等的常用统计:求相关系数来度量变量间的相关程度的相关分析;求回归方程(线性或非线性)来表示变量间的数量关系的回归分析;从样本统计量的值得出差异,来确定

19、总体参数之间是否存在差异(假设检验)的差异分析;直接比较样本中各样本之间的距离,将距离较近的归为一类。而将距离较远的分在不同类中的聚类分析;建立一个或多个判别函数,并确定一个判别标准。,根据所用的方法和技术分类,归纳学习法仿生物技术法公式发现法统计分析法模糊数学法可视技术法,模糊数学法,模糊聚类模糊分类模糊关联规则,根据所用的方法和技术分类,归纳学习法仿生物技术法公式发现法统计分析法模糊数学法可视技术法,可视技术法,可视化技术是对数据挖掘过程及结果的图形显示技术。可视化技术在数据挖掘中的广泛应用已形成了可视化数据挖掘类的多种方法。应用:提取几何图形绘制显示和演放,数据挖掘的对象,关系数据库文本

20、图像与视频数据WEB数据,数据挖掘方法和技术,归纳学习方法仿生物技术公式发现统计分析方法模糊数学方法可视化技术,数据挖掘与专家系统的区别,相同点:都是利用已有信息来解决问题区别:数据挖掘是从海量已有数据中发现隐藏的、潜在的知识来进行决策支持;专家系统是利用专家知识或启发性知识,按一定的推理规则来帮助人们解决问题。数据挖掘强调事实第一、惟数据;专家系统强调经验第一、惟专家,数据挖掘的知识表示,规则决策树知识基(浓缩数据)网络权值公式,规 则,规则知识由前提条件和结论两部分组成 前提条件 由字段项(属性)的取值的 合取(与,)和析取(或,)组合而成结论为决策字段项(属性)的取值或者类别组成,规则的

21、例子,决策树,ID3决策树的建立方法:首先由信息量最大的字段(属性)作为根结点接着根的各个取值为分枝,对各个分枝所划分的数据元组(记录)子集,重复建树过程,扩展决策树最后得到相同类别的子集,以该类别作为叶结点,决策树的例子1,商店定位决策树,决策树的例子2,天气?,overcast,湿度?,风况?,=70,70,无,有,天晴,有雨,适合,不适合,不适合,适合,适合,多云,知识基,通过数据挖掘的方法能大大压缩数据库的元组和字段项,最后得到浓缩数据,称为知识基 它是原数据库的精华,很容易转换成规则知识,知识基的例子,网络权值,神经网络方法经过对训练样本的学习后,所得到的知识是网络连接权值和结点的阈

22、值一般表示为矩阵和向量,网络权值的例子,神经网络结构和权值,公式,在大量实验数据(数值)中蕴涵着一定的规律性,通过公式发现算法,可以找出各种变量间的相互关系,用公式表示,公式的例子,可以得到开普勒第三定律:d3/p2=25,太阳系行星运动数据中包含行星运动周期(旋转一周所需时间,d),以及它与太阳的距离(围绕太阳旋转的椭圆轨道的长半轴,Gm),案例,案例是指经历过的一次完整事件案例是解决新问题的一种知识基于案例的推理(CBR,Case Based Reasoning)在案例库中搜索相似的案例,通过对旧案例的修改来解决新问题。,案例,案例知识一般表示为三元组:问题描述:对求解问题及周围环境特征的描述;解描述:对问题求解方案的描述;效果描述:描述解决方案的结果情况,是成功还是失败,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号