《数据仓库与数据挖掘必考点.docx》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘必考点.docx(7页珍藏版)》请在三一办公上搜索。
1、数据仓库与数据挖掘必考点第一章 1、数据仓库:是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。 组成:数据仓库数据库,数据抽取工具,元数据,访问工具,数据集市,数 据仓库管理,信息发布系统; 2、元数据:技术元数据 业务元数据。 3、数据处理:联机事务处理 联机分析处理。(OLAP) 4、多维分析采取:切片、切块、钻取和旋转等各种分析动作。 5、ROLAP:关系数据库 MOLAP:多维数据结构组织 的OLAP实现。 HOLAP:混合数据组织 6、数据仓库开发过程:数据抽取、数据存储与管理、数据表现; 7、数据仓库系统的体系结构根据应用需求的不同: 两层架构, 独立型数据集市, 依
2、赖型数据集市和操作型数据存储, 逻辑型数据集市和实时数据仓库 8、操作型数据存储:是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库,也叫运营数据存储。 9、“实时数据仓库”:接近实时的速度交换数据和业务规则。 10、一个典型的数据仓库系统的组成?P12 数据源、数据存储与管理、OLAP服务器、前端工具与应用 第二章 1、调和数据:是存储在企业级数据仓库和操作型数据存储中的数据。 2、抽取、转换、加载目的:是为决策支持应用提供一个单一的、权威数据源。 因此,我们要求ETL过程产生的数据是详细的、历史的、规范的、可理解的、即时的和质量可控制的。 3、数据抽取:从源文件和源数据库
3、中获取相关数据用于填充数据仓库; 两个常见类型 静态抽取用于:最初填充数据仓库; 增量抽取用于:数据仓库的维护; 4、数据清洗: 使用模式识别和其他技术 将原始数据转换和移到数据仓库之前 升级数据质量的技术; 5、数据转换:把数据从源操作业务系统的格式转换到企业数据仓库的数据格式; 6、粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。 7、多维数据建模:以维度为中心、多个角度分析有关数据的建模。 存在形式:星型、雪花型、事实星座模式 8、星型模式可以从一定程度上提高查询效率。因为星型模式中数据的组织已经经过预处理,主要数据都在庞大的事实表中。 9、维度表一般由主键、分类层次和描述属性
4、组成。对于主键可以选择两种方式:一种是采用自然键,另一种是采用代理键。 10、雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。 11、数据仓库中存在不同综合级别的数据。一般把数据分成4个级别:早期细节级、当前细节级、轻度综合级和高度综合级。 12、简述数据仓库ETL软件的主要功能和对产生数据的目标要求。P30 ETL软件的主要功能: 数据的抽取,数据的转换,数据的加载 对产生数据的目标要求: 详细的、历史的、规范化的、可理解的、即时的、质量可控制的 13、多维数据模型中的基本概念:维,维类别,维属性,度量,粒度,分割P37 l 维:人们观察数据的特定角度,是考虑问题的一类属性
5、,如时间维或产品维 l 维类别:也称维分层。即同一维度还可以存在细节程度不同的各个类别属性 l 维属性:是维的一个取值,是数据线在某维中位置的描述。 l 粒度:DW中数据综合程度高低的一个衡量。粒度低,细节程度高,回答查询的种类多 第四章 P93 1、关联规则的经典算法包括Apriori算法和FP-growth算法,其中FP-growth算法的效率更高。 第五章 1、分类:把数据样本映射到一个事先定义的类中的学习过程; 过程:包括获取数据、预处理、分类器设计和分类决策。 评价准则: 精确度 查全率 查准率 F-measure 几何均值 2、分类器设计阶段包含三个过程:划分数据集、分类器构造、分
6、类器测试。 3、支持向量机:统计学习算法 4、最优超平面:分类超平面不但能将两类数据无错误地分开,而且要使两类数据样本的分类间隔最大; 5、ID3算法主要存在的缺点?P116 ID3算法在选择根结点和各内部结点中的分枝属性时,使用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性,在有些情况下这类属性可能不会提供太多有价值的信息。 ID3算法只能对描述属性为离散型属性的数据集构造决策树。 6、近邻分类方法有几种?:最近邻分类方法、k-近邻分类方法 7、支持向量机中常用的核函数:多项式核函数、径向基核函数和S型核函数。P126 第六章 1、聚类分析包括:连续型、二值离散型、多值离散型
7、、混合类型。 2、连续型属性的数据样本之间的距离有 欧氏距离: 曼哈顿距离: 明考斯基距离: 3、K-means算法的基本操作步骤。P138 4、划分聚类方法对数据集进行聚类时包含三要点: a、选种某种距离作为数据样本间的相似性度量; b、选择评价聚类性能的准则函数 c、选择某个初始分类,之后用迭代的方法得到聚类结果,使得评价聚类的准则函数取得最优值。 5、层次聚类方法:包括 (底-上) 凝聚型 层次聚类 (顶-下) 分解型 6、数据挖掘技术对聚类分析的要求有哪几个方面?P131 可伸缩性;处理不同类型属性的能力;发现任意形状聚类的能力;减小对先验知识和用户自定义参数的依赖性;处理噪声数据的能
8、力;可解释性和实用性 7、常见的聚类算法可以分为几类?P132 基于划分的聚类算法 基于层次的聚类算法 基于密度的聚类算法 基于网格的聚类算法 基于模型的聚类算法 第8章 1. 粗糙集:粗糙集理论是一种新型处理不完整性和不确定性问题的数学工具,它能对不完整资料进行分析,推理,学习和发现,具有很强的知识获取能力。 第9章 1、 x1 x2 xn F y 其中x1,x2,xn是输入 y是输出 为内部状态的反馈信息和 为阈值,F是表示神经元活动的特性函数。特征函数又包括分段线性特性函数、阈值特性函数、S型逻辑特性函数 第10章 1、 遗传算法步骤: SGA的基本流程如下: 初始化,产生初始种群。 个
9、体评价,即计算种群中每个个体的适应度。 按选择概率Ps,执行选择算子,从当前种群中选择部分个体进入下一代种群。 按交叉概率Pc,执行交叉算子。 按变异概率Pm,执行变异算子。 若满足设定的终止条件,则输出种群中适应度最优的个体作为问题的最优解或满 2、遗传算法设计到的参数: 确定编码方式,以便对问题的解进行编码,即用个体表示问题的可能解。 确定种群大小规模。 确定适应度函数,决定个体适应度的评估标准。 确定选择的方法及选择率。 确定交叉的方法及交叉率。 确定变异的方法及变异率。 确定进化的终止条件。 第12章 1、Web挖掘的三个主要类别: Web内容挖掘、Web结构挖掘和Web使用挖掘。 2、文本挖掘是一个从大量文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程; 文本数据包括:技术报告、文本集、新闻、电子邮件、网页、用户手册等。