数据挖掘知识点.docx_三一办公31ppt.com

资源描述

《数据挖掘知识点.docx》由会员分享，可在线阅读，更多相关《数据挖掘知识点.docx（13页珍藏版）》请在三一办公上搜索。

1、数据挖掘知识点1、数据库与数据仓库的对比数据库面向应用数据是详细的保持当前数据数据是可更新的对数据的操作是重复的操作需求是事先可知的一个操作存取一个记录数据非冗余操作比较频繁查询基本是原始数据数据仓库面向主题数据是综合和历史的保存过去和现在的数据数据不更新对数据的操作是启发式的操作需求是临时决定的一个操作存取一个集合数据时常冗余操作相对不频繁查询基本是经过加工的数据事务处理需要的是当前数据决策分析需要过去和现在的数据很少有复杂的计算支持事务处理 2、OLTP与OLAP 联机事物处理是在网络环境下的事务处理工作，以快速的响应和频繁的数据修改为

2、特征，使用户利用数据库能够快速地处理具体的业务。 OLTP 数据库数据细节性数据当前数据经常更新对响应时间要求高用户数量大 OLAP 数据仓库数据综合性数据历史数据不更新，但周期刷新响应时间合理用户数量相对较小有很多复杂的计算支持决策分析面向操作人员，支持日常操作面向决策人员，支持决策需要面向应用，事务驱动 3、数据字典和元数据：数据字典：是数据库中各类数据描述的集合，它在数据库设计中具有很重要的地位。由：数据项；数据结构；数据流；数据存储；处理过程5部分组成。元数据定义为关于数据的数据，即元数据描述了数据仓库的数据和环境。数据仓库的元数据除对数据仓库中数据的

3、描述外，还有以下三类元数据：(1) 关于数据源的元数据(2) 关于抽取和转换的元数据(3) 关于最终用户的元数据面向分析，分析驱动 4、数据从数据库到知识的流程： DB-DW-OLAP-DM-KDD-DSS-AI 5、数据挖掘的含义：知识发现：从数据中发现有用知识的整个过程。数据挖掘：KDD过程中的一个特定步骤，它用专门算法从数据中抽取知识。 6、数据仓库和数据挖掘的区别与联系数据仓库与数据挖掘的区别：数据仓库是一种存储技术，它能适应于不同用户对不同决策需要提供所需的数据和信息。数据挖掘研究各种方法和技术，从大量的数据中挖掘出有用的信息和知识。数据仓库与数据挖掘的关系：数据仓库与数据

4、挖掘都是决策支持新技术。但它们有着完全不同的辅助决策方式。在数据仓库系统的前端的分析工具中，数据挖掘是其中重要工具之一。它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。数据挖掘用于数据仓库实现决策支持：预测客户购买倾向；客户利润贡献度分析；分析欺诈行为；销售渠道优化分析等。数据仓库和数据挖掘的结合对支持决策会起更大的作用。数据仓库中数据存储特点：由于数据仓库不同于数据库，数据挖掘也随之发生变化。数据存储方式的不同；数据存储的数据量的不同；数据存储的结构不同数据仓库中数据挖掘特点：数据挖掘从数据仓库中挖掘更深层次的信息。数据仓库为数据挖掘提出了新要求：数据挖掘需要可扩展性；数据挖掘方法

5、需要能挖掘多维知识。 7、商业智能：商业智能以数据仓库为基础，通过联机分析处理和数据挖掘技术帮助企业领导者针对市场变化的环境，做出快速、准确的决策。商业智能与新决策支持系统从组成和目标来看是一致的。但是，商业智能是一种技术，新决策支持系统是解决实际决策问题的一个系统。可以理解为：新决策支持系统是利用商业智能技术来解决实际决策问题的系统。 8、数据仓库结构：近期基本数据：是最近时期的业务数据，是数据仓库用户最感兴趣的部分，数据量大。历史基本数据：近期基本数据随时间的推移，由数据仓库的时间控制机制转为历史基本数据。轻度综合数据：是从近期基本数据中提取出的，这层数据是按时间段选取，或者按数据属

6、性和内容进行综合。高度综合数据层：这一层的数据是在轻度综合数据基础上的再一次综合，是一种准决策数据。图一 9、数据仓库系统结构：数据仓库系统由数据仓库、仓库管理和分析工具三部分组成。图二、仓库管理数据建模：数据建模是建立数据仓库的数据模型。数据抽取、转换、装载：数据仓库中的数据，是通过在源数据中抽取数据，按数据仓库的逻辑数据模型的要求进行数据转换，再按物理数据模型的要求装载到数据仓库中去。数据抽取、转换、装载是建立数据仓库的重要步骤，需要花费开发数据仓库70%的工作量。元数据：同13 系统管理：数据管理，性能监控，存储器管理以及安全管理。分析工具查询工具：数据仓库的查询不是指

7、对记录级数据的查询，而是指对分析要求的查询。多维分析工具：通过对信息的多种可能的观察形式进行快速、一致和交互性的存取，这样便利用户对数据进行深入的分析和观察。数据挖掘工具：从大量数据中挖掘具有规律性知识，需要利用数据挖掘工具。 10、数据仓库的运行结构数据仓库应用是一个典型的客户/服务器结构形式：客户端所做的工作：客户交互、格式化查询、结果显示、报表生成等。服务器端完成各种辅助决策的SQL查询、复杂的计算和各类综合功能等。三层C/S结构：OLAP服务器将加强和规范化决策支持的服务工作，集中和简化了原客户端和数据仓库服务器的部分工作，降低了系统数据传输量。这种结构形式工作效率更高。 1

8、1、数据仓库数据模型：数据仓库存储采用多维数据模型。星型模型：大多数的数据仓库都采用“星型模型”。星型模型是由“事实表”以及多个“维表”所组成。雪花模型：雪花模型对星型模型的维表进一步层次化，原来的各维表可能被扩展为小的事实表，形成一些局部的“层次”区域。星网模型：星网模型是将多个星型模型连接起来形成网状结构。多个星型模型通过相同的维，如时间维，连接多个事实表。 12、*数据抽取、转换和装载数据仓库需要将这些源数据经过抽取、转换和装载的过程，存储到数据仓库的数据模型中。可以说，数据仓库的数据获取需要经过抽取、转换、装载三个过程即ETL过程。数据抽取确认数据源：列出对事实表的每一个

9、数据项和事实；列出每一个维度属性；对于每个目标数据项，找出源数据项；一个数据元素有多个来源，选择最好的来源；确认一个目标字段的多个源字段，建立合并规则；确认一个目标字段的多个源字段，建立分离规则；确定默认值；检查缺失值的源数据数据抽取技术：考虑两种情况：当前值；周期性的状态。分为两类：静态数据抽取；修正数据的抽取。数据转换数据转换的基本功能：选择：从源系统中选择整个记录或者部分记录。分离/合并：对源系统中的数据进行分离操作或者合并操作。转化：对源系统进行标准化和可理解化。汇总：将最低粒度数据进行汇总。清晰：对单个字段数据进行重新分配和简化。数据转换类型：格式修正；字段的解码；计算值和

10、导出值；单个字段的分离；信息的合并；特征集合转化；度量单位的转化；关键字重新构造；汇总；日期/时间转化数据整合和合并：数据整合和合并是将相关的源数据组合成一致的数据结构，装入数据仓库。如何实施转换：自己编写程序实现数据转换；使用转换工具数据装载数据装载方式：基本装载：按照装载的目标表，将转换过的数据输入到目标表中去。追加：如果目标表中已经存在数据，追加过程在保存已有数据的基础上增加输入数据。破坏性合并：用新输入数据更新目标记录数据。建设性合并：保留已有的记录，增加输入的记录，并标记为旧记录的替代。数据装载类型：最初装载：这是第一次对整个数据仓库进行装载。增量装载：由于源系统的变化，

11、数据仓库需要装载变化的数据。完全刷新：这种类型的数据装载用于周期性重写数据仓库。 ETL工具：数据转换引擎；代码生成器；通过复制捕获数据 13、*元数据元数据定义了数据仓库有什么，指明了数据仓库中数据的内容和位置，刻画了数据的抽取和转换规则，存储了与数据仓库主题有关的各种商业信息，而且整个数据仓库的运行都是基于元数据的。分类：关于数据源的元数据；关于数据模型的元数据；关于数据仓库映射的元数据；关于数据仓库映射的元数据；关于数据仓库使用的元数据。 14、OLAP的概念 OLAP是在OLTP的基础上发展起来的。OLTP是以数据库为基础的，OLAP是以数据仓库为基础的数据分析处理。它有两个特点：一

12、是在线性，由客户机/服务器这种体系结构来完成的；二是多维分析，这也是OLAP的核心所在。 OLAP理事会给出的定义：联机分析处理是一种软件技术，它使分析人员能够迅速、一致、交互地从各个方面观察信息，以达到深入理解数据的目的。这些信息是从原始数据转换过来的，按照用户的理解，它反映了企业真实的方方面面。 OLAP的简单定义：联机分析处理是共享多维信息的快速分析。它体现了四个特征：快速性：用户对OLAP的快速反应能力有很高的要求。可分析性：OLAP系统应能处理任何逻辑分析和统计分析。多维性：系统必须提供对数据分析的多维视图和分析。信息性：OLAP系统应能及时获得信息，并且管理大容量的信息。 15、O

13、LAP的基本概念 OLAP是针对特定问题的联机数据访问和分析。变量：变量是数据的实际意义，即描述数据“是什么”。维：维是人们观察数据的特定角度。如产品维、顾客维、时间维等。维的层次：数据的细节不同程度为维的层次。如日、月、季、年是时间维的层次。维成员：维的一个取值称为该维的一个维成员。如“某年某月某日”是时间维的一个成员。多维数组：一个多维数组可以表示为：数据单元：多维数组的取值称为数据单元。 16、*MOLAP数据模型 MOLAP是基于多维数据库存储方式建立的OLAP；表现为“超立方”结构，采用类似于多维数组的结构。 17、*ROLAP数据模型 ROLAP是基于关系数据库的OLAP。它

14、是一个平面结构，用关系数据库表示多维数据时，采用星型模型 18、MOLAP和ROLAP的对比类型数据存储速度数据存储的容量多维计算能力维度变化的适应性数据变化的适应性 MOLAP 性能好，速度快容量相对较小支持复杂计算 ROLAP 响应时间较长容量大，冗余数据多无法完成多行和多维计算增加维度，要重新建立多维数据库只需修改一张维表数据变化时要重新计算灵活性好，适应性强很好有设计者自定义软硬件平台的适应性较差元数据管理作为内在数据 MOLAP和ROLAP在技术上各有优缺点。MOLAP以多维数据库为核心，在数据存储和综合上有明显优势，但它不适应太大数据存储，特

15、别是对有大量稀疏数据的存储将会浪费大量的存储空间。ROLAP以RDBMS为基础，利用成熟的技术为用户的使用和管理带来方便。 19、*OALP的多维数据分析切片：选定一个多维数组的一个二维子集叫做切片。切块：在多维数组的某一个维上选定某一区间的维成员的操作；选定多维数组的一个三维子集的操作。钻取：取有向下钻取和向上钻取操作。向下钻取是使用户在多层数据中能通过导航信息而获得更多的细节性数据。向上钻取获取概括性的数据。旋转：通过旋转可以得到不同视角的数据。旋转操作相当于平面数据将坐标轴旋转。 20、*数据仓库分析与设计需求分析：需要确定如下问题：确定主题域；支持决策的数据来源；数据仓库的成

16、功标准和关键性能指标；数据量与更新频率。通过需求分析，需要的数据包括：数据源；数据转换；数据存储；决策分析。概念模型设计：将需求分析过程中得到的用户需求抽象为计算机表示的信息结构，既概念模型。概念模型的特点是：能真实反映现实世界，能满足用户对数据的分析，达到决策支持的要求，它是现实世界的一个真实模型。易于理解，便利和用户交换意见，在用户的参与下，能有效地完成对数据仓库的成功设计。易于更改，当用户需求发生变化时，容易对概念模型修改和扩充。易于向数据仓库的数据模型转换。逻辑模型设计：逻辑模型设计是吧概念模型设计设计好的E-R图转换成计算机所支持的数据模型。数据仓库的逻辑模型设计主要是将用E-R

17、图表示的概念模型转换成星型模型。主要工作为：主题域进行概念模型到逻辑模型的转换；粒度层次划分；关系模式定义；定义记录系统物理模型设计。 21、数据仓库开发过程图三 22、数据挖掘与知识发现知识发现：从数据中发现有用知识的整个过程。数据挖掘：KDD过程中的一个特定步骤，它用专门算法从数据中抽取模式。 KDD过程定义：从大量数据中提取出可信的、新颖的、有用的并能被人理解的模式的高级处理过程：数据准备：分为三个字步骤：数据选择，确定发现任务的操作对象，即目标数据；数据预处理，一般包括消除噪声、推导计算缺值数据、消除重复记录等；数据转换的主要目的是完成数据类型转换。数据挖掘：首先要确定

18、挖掘的任务或目的，如数据分类、聚类、关联规则发现或序列模式发现等。确定了挖掘任务后，就要决定使用什么样的挖掘算法。实施数据挖掘算法，获取有用的模式。结果的解释和评价：获取的模式经过评估，可能存在冗余或无关的模式，这时需要将其剔除；也有可能模式不满足用户要求。把结果转换为用户易懂的另一种表示，如把分类决策树转换为“if .then”规则。图四 22、数据挖掘对象 1关系数据库数据库的特点有：数据动态性数据不完全性数据噪声数据冗余性数据稀疏性海量数据 2文本：关键词或特征提取相似检索文本聚类文本分类 3图象与视频数据：图像与视频特征提取基于内容的相似检索视频镜头的编辑与组织 4Web数据：异

19、构数据集成和挖掘半结构化数据模型抽取 23、数据挖掘任务 1关联分析：若两个或多个数据项的取值之间重复出现且概率很高时，它就存在某种关联，可以建立起这些数据项的关联规则。 2时序模式：通过时间序列搜索出重复发生概率较高的模式。 3聚类：数据库中的数据可以划分为一系列有意义的子集，即类。聚类方法包括统计分析方法，机器学习方法，神经网络方法等。 4分类：分类是在聚类的基础上，对已确定的类找出该类别的概念描述，它代表了这类数据的整体信息。一个类的内涵描述分为：特征描述和辨别性描述。特征描述是对类中对象的共同特征的描述。辨别性描述是对两个或多个类之间的区别的描述。 5偏差检测：从数据分析中发现异常情况

20、。偏差检测的基本方法是寻找观察结果与参照之间的差别。 6预测：预测是利用历史数据找出变化规律，建立模型，并用此模型来预测未来数据的种类，特征等。典型的方法是回归分析，即利用大量的历史数据，以时间为变量建立线性或非线性回归方程。 24、数据挖掘方法和技术按方法分为6类：统计方法：回归分析；判别分析；聚类分析；探索性分析。机器学习方法：归纳学习法。仿生物法：神经网络；遗传算法；克隆免疫法；蚁群算法；鸟群算法；粒子群优化算法。信息论法：熵学习法；全信息法；互信息法集合论法：粗糙集合，模糊集合数据库法：多维数据分析，面向属性的归纳方法。 25、神经网络不能对人脑进行逼真描述，而是抽象和

21、简化。神经网络学习：通过一定的学习方法和规则，实现对突出结合强度的调整。联想式学习，误差传播学习，概率式学习和竞争学习。前馈式神经网络：感知机，BP 反馈式神经网络：Hopfield 感知机：双层模型。逻辑或、与、非都是线性可分，异或线性不可分。 BP：误差反向传播网络，是多层前馈网络，处理非线性问题。 Hopfield：单层全互联的对称反馈网络模型，分为离散的Hopfield网络和连续地Hopfield网络。图五 26、遗传算法和进化计算进化计算是模拟自然界生物进化过程中群体随机搜索技术和自然选择法则，即通过进化过程完成问题的求解。进化计算的生物基础理论：遗传理论，变异理论，进化论。

22、进化计算构成：遗传算法、进化策略、进化规划、遗传规划。进化计算特征：自组织，自适应性，并行，多解，全局优化性，内在学习性，统计性，稳健性。遗传算法：遗传算法是模拟生物在自然环境中的遗传和进化过程而形成的一种自适应全局优化搜索算法。遗传算法流程图：图六遗传算法的基本要素： 1）问题编码：如何将问题描述成位串的形式，即问题编码。一般将问题中各参数用二进制编码，构成子串，再将子串拼接起来构成“染色体”位串。 2）初始群体的设定：遗传算法是群体型操作，这样必须为遗传操作准备一个由若干初始解组成的初始群体。 3）适应值函数的设计：适应值函数是根据目标函数确定的。适应值总是非负的，任何情况下总

23、是希望越大越好。 4）遗传操作设计：参数主要有个体编码长度、群体大小M、交叉概率Pc、变异概率Pm、终止代数T等。 5）控制参数设定：主要是指群体大小和使用遗传操作的概率等。选择操作主要使用：轮盘赌方法和繁殖池选择。交叉操作主要使用：单点交叉，两点交叉，多点交叉，均匀交叉。变异操作主要使用：二进制值变异，0变1或1变0。种群：是指用遗传算法求解问题，初始给定的多个解的集合，它是问题解空间的子集。遗传算法的求解过程是从这个子集开始。个体：指种群中的单个元素，它通常有一个用于描述其基本遗传结构的数据结构来表示。例如：可用1,0组成的长度为1的串来表示个体。染色体：是指对个体进行编码后所得到的编码串。染色体中的每一个位成为基因，染色体上若干个基因构成的一个有效信息段成为基因组。适应度函数：是一种用来对种群中各个个体的环境适应性进行度量的函数，其函数值决定染色体的优劣程度，是遗传算法实现优胜劣汰的主要依据。遗传操作：是指作用于种群而产生新的种群的操作。 27、粗糙集计算：下近似：必须是X的子集：R-(x)=POSR(x) 上近似：只要至少有一个与x相交上下差=边界=BNDRR(x) -(x)=R-(x)-R-(x) 上以外=负区域=NEGR(x)=U-R-(x) 粗糙度：a=R-(x)R(x)-POS(D)属性依赖度：rc(D)=CU属性重要度：S

展开阅读全文