《数据挖掘3章数据预处理.ppt》由会员分享,可在线阅读,更多相关《数据挖掘3章数据预处理.ppt(16页珍藏版)》请在三一办公上搜索。
1、2023/10/14,1,数据预处理,2009年4月27日,2023/10/14,2,2.1 数据预处理的原因,正确性(Correctness)一致性(Consistency)完整性(Completeness)可靠性(Reliability),数据质量的含义,2023/10/14,3,数据错误的不可避免性,数据输入和获得过程数据错误数据集成所表现出来的错误数据传输过程所引入的错误 据统计有错误的数据占总数据的5%左右Redmen,Orr98,数据错误的危害性,高昂的操作费用糟糕的决策制定组织的不信任分散管理的注意力,2023/10/14,4,数据预处理的形式,数据清理数据集成数据变换数据归约,
2、2023/10/14,5,2.2描述性数据汇总,均值分布式度量 sum()count()min()max()代数度量 average()mean()加权平均 截断平均 减小极端值的影响整体度量 中位数 众数中列数(max+min)/2,2.2.1 度量数据的中心趋势,2023/10/14,6,2.2描述性数据汇总,极差、四分位数、离群点和箱形图方差 标准差,2.2.2 度量数据的离散趋势,2023/10/14,7,2.2描述性数据汇总,直方图、分位数图、分位数-分位数图散点图、散点图阵、Loess曲线,2.2.3 基本描述数据汇总的图形显示,2023/10/14,8,2.3 数据清理,忽略元组
3、人工填写空缺值使用一个全局常量填充空缺值 使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值,2.3.1 缺失值,2023/10/14,9,分箱:按箱平均值、按箱中值、按箱边界聚类计算机和人工检查结合 回归,躁声数据,数据清理作为一个过程,2023/10/14,10,实体识别:元数据可帮助避免错误属性冗余:相关分析数据重复数据值冲突的检测与处理:,2.4 数据集成和变换,数据集成,2023/10/14,11,平滑聚集数据概化规范化:最小-最大、Z-Score、按小数定标属性构造,数据变换,2023/10/14,12,2.5 数据归约归约数据集小、近似保持
4、原数据的完整性,2.5.1 数据立方体聚集:聚集数据立方体 使用与给定任务相关的最小方体2.5.2 属性子集选择 检测、删除不相关 弱相关 冗于的属性和维 方法:逐步向前、逐步向后、向前向后结合 决策树归纳:信息增益法,2023/10/14,13,2.5 数据归约归约数据集小、近似保持原数据的完整性,2.5.3 数据压缩:编码机制压缩数据 方法:小波变换、主成分分析(PCA)数值压缩:用替代的、较小的数据表示数据 方法:有参方法 回归和对数线性模型 无参方法 直方图 聚类 抽样,2023/10/14,14,2.6 离散化和概念分层 原始值用区间值或较高 层的概念替换 离散化:原始值划分为有限个
5、区间,减少了连续属性值的个数概念分层:原始值用较高层的概念替换,2023/10/14,15,2.6 离散化和概念分层:2.6.1 对数值数据:分箱 直方图分析 聚类分析 基于熵的离散化(entropy)通过信息增益方法确定区间边界 使用类信息,更可能将区间边界定义准确 基于卡方分析的区间合并 通过自然划分分段 3-4-5规则(P58):将数值数据划分成相对一致的区间,2023/10/14,16,2.6.2 对分类数据:,分类数据是离散数据。一个分类属性可能有有限个不同的值。方法 由用户和专家在模式级显式的说明属性的部分序通过显式的数据分组说明分层结构的一部分说明属性集,但不说明他们的偏序只说明部分的属性集,