《数据分析建模中数据预处理方法详细介绍课件.ppt》由会员分享,可在线阅读,更多相关《数据分析建模中数据预处理方法详细介绍课件.ppt(67页珍藏版)》请在三一办公上搜索。
1、数据分析建模中数据预处理方法详细介绍,6、法律的基础有两个,而且只有两个公平和实用。伯克7、有两种和平的暴力,那就是法律和礼节。歌德8、法律就是秩序,有好的法律才有好的秩序。亚里士多德9、上帝把法律和公平凑合在一起,可是人类却把它拆开。查科尔顿10、一切法律都是无用的,因为好人用不着它们,而坏人又不会因为它们而变得规矩起来。德谟耶克斯,数据分析建模中数据预处理方法详细介绍数据分析建模中数据预处理方法详细介绍6、法律的基础有两个,而且只有两个公平和实用。伯克7、有两种和平的暴力,那就是法律和礼节。歌德8、法律就是秩序,有好的法律才有好的秩序。亚里士多德9、上帝把法律和公平凑合在一起,可是人类却把
2、它拆开。查科尔顿10、一切法律都是无用的,因为好人用不着它们,而坏人又不会因为它们而变得规矩起来。德谟耶克斯实溪太字数据清洗和数据预处理熵值归一化方法抽样方法实溪太字教学目标认识数据挖掘前数据进行适当处理的必要性掌握常用数据预处理的方法,实溪太字数据清洗和数据预处理熵值归一化方法抽样方法,实溪太字教学目标认识数据挖掘前数据进行适当处理的必要性掌握常用数据预处理的方法,实溪太字教学要求知识要点能力要求相关知识点(1)了解原始数据存在的主要(1)数据的一致性问题数据预处理问题(2数据的噪声问题的原因(2)明白数据预处理的作用和(3原始数据的不完整和高维作任务度问题(1)掌握数据清洗的主要任务与常用
3、方法2)掌握数据集成的主要内容()数据清洗数据预处理和常用方法2)数据集成的方法(3)掌握数据变换的主要内容(3)数据变换和常用方法(4)数据归约(4)掌握数据归约的主要内容和常用方法,实溪太字为什么要预处理数据?现实世界的数据是“肮脏的”不完整的含噪声的不一致的没有高质量的数据,就没有高质量的挖掘结果高质量的决策必须依赖高质量的数据数据仓库需要对高质量的数据进行一致地集成,实溪太字原始数据中存在的问题1.不一致数据内涵出现不一致情况2.重复3.不完整感兴趣的属性没有值4.含噪声数据中存在着错误、或异常(偏离期望值)的数据5.高维度,实溪太字数据预处理的方法1.数据清洗去掉噪声和无关薮据2数据
4、集成将多个数据源中的数据结合起来存放在一个一致的数据存储中3.数据变换把原始数据转换成为适合数据挖掘的形式4.数据归约主要方法包括:数据立方体聚集,维归约,数据压缩,数值归约,离散化和概念分层等,实溪太字数据清洗数据选取参考原则:1.尽可能赋予属性名和属性值明确的含义2.统一多数据源的属性值编码3.去除惟一属性4.去除重复属性5.去除可忽略字段6.合理选择关联字段进一步处理通过填补遗漏数据、消除异常数据、平滑噪声数据,以及纠正不一致的薮据,去掉薮据中的噪音、填充空值、丢失值和处理不一致数据,实溪太字数据清洗处理空缺值数据并不总是完整的在分析一个商场销售数据时,发现有多个记录中的属性值为空,如:
5、顾客的收入属性对于为空的属性值引起空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在输入时,有些数据应为得不到重视而没有被输入对数据的改变没有进行日志记载,实溪太字数据清洗一处理空缺值空缺值要经过推断而补上1忽略该记录2.去掉属性3.手工填写空缺值4.使用默认值5.使用属性平均值6.使用同类样本平均值7.预测最可能的值,实溪太字数据清洗噪声数据的处理噪声:在测量一个变量时可能出现的测量值相对于真实值的偏差或者错误,谢谢你的阅读,知识就是财富丰富你的人生,71、既然我已经踏上这条道路,那么,任何东西都不应妨碍我沿着这条路走下去。康德72、家庭成为快乐的种子在外也不致成为障碍物但在旅行之际却是夜间的伴侣。西塞罗73、坚持意志伟大的事业需要始终不渝的精神。伏尔泰74、路漫漫其修道远,吾将上下而求索。屈原75、内外相应,言行相称。韩非,