数据分析思维训练(打印报告).ppt

上传人:仙人指路1688 文档编号:2719739 上传时间:2023-02-23 格式:PPT 页数:72 大小:3.33MB
返回 下载 相关 举报
数据分析思维训练(打印报告).ppt_第1页
第1页 / 共72页
数据分析思维训练(打印报告).ppt_第2页
第2页 / 共72页
数据分析思维训练(打印报告).ppt_第3页
第3页 / 共72页
数据分析思维训练(打印报告).ppt_第4页
第4页 / 共72页
数据分析思维训练(打印报告).ppt_第5页
第5页 / 共72页
点击查看更多>>
资源描述

《数据分析思维训练(打印报告).ppt》由会员分享,可在线阅读,更多相关《数据分析思维训练(打印报告).ppt(72页珍藏版)》请在三一办公上搜索。

1、2023/2/23,数据分析的新思维 数据挖掘中的数据准备,朱建平厦门大学经济学院计划统计系,2023/2/23,报告内容及目的,让大家了解数据挖掘的概念,认识海量数据分析中所遇到的问题,在此基础上,介绍原始大型数据库的基本表述和特征,了解数据准备的不同技术,比较去除丢失值的不同方法,构造时间相关数据的统一表述方法,实现一些数据预处理技术。其目的是让大家从中领悟现代统计方法的基本思想。,2023/2/23,参考文献,Cios,K.J.,Pedrycz,W.and Swiniarski,R.W.(1998),Data Mining Methods for Knowledge Discovery,

2、U.S.AFriedman,J.H.,Data Mining and Statistics:Whats The Connection?Technical Report,Stanford UniversityGlymour,C.,etc.Statistical Themes and Lessons for Data Mining,Data Mining and Knowledge Discovery 1,11-28(1997)Han,J.W.and Kamber,M.Data Mining:Concepts and Techniques,Higher Education Press,(2001)

3、Theresa,B.,Frederick,E.P.and Gurdial,A.,Information-Theoretic Measures of Uncertainty for Rough Sets and Rough Relational Databases,Journal of Information Sciences 109(1998),pp185-195Nelson,D.E.,High Range Resolution Radar Target Classification:A Rough Set Approach,Paper of PhD,2023/2/23,张尧庭,谢邦昌,朱世武

4、,数据采掘入门及应用从统计技术看数据采掘,中国统计出版社,北京,(2001.6)史忠植著,知识发现,清华大学出版社,北京,(2002.1)数据挖掘讨论组,数据挖掘的研究历史和现状,http:/Kantardzic),数据挖掘概念、模型、方法和算法,清华大学出版社,(2003.8)张银奎等译(Hand,D),数据挖掘原理,机械工业出版社,(2003.4)范明等译(Hastie,J),统计学习基础数据挖掘、推理与预测,电子工业出版社,(2004.1)朱建平,数据挖掘中的统计方法及实践,中国统计出版社(2006.10),2023/2/23,现代统计分析中的数据准备,一、数据挖掘的定义 二、数据挖掘与

5、知识发现 三、海量数据分析中遇到的问题 四、数据准备 1、数据选择 2、数据预处理 3、数据变换,2023/2/23,一、数据挖掘的技术定义与商业定义,什么是数据挖掘(Data Mining)?关于定义取决于定义者的观点和背景,各人的说法不一.Friedman,J.H.在技术报告Data Mining and Statistics:Whats The Connection?中总结出了多家关于数据挖掘的定义(也有对知识发现而言的):Fayyad提出数据挖掘是一个确定数据中有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程.,2023/2/23,Zekulin的说法是数据挖掘是一个从大型

6、数据库中提取以前未知的、可理解的、可执行的信息,并用它来进行关键的商业决策的过程.Ferruzza给出数据挖掘是用在知识发现过程,来辩识存在于数据中的未知关系和模式的一些方法.Jonn提到数据挖掘是发现数据中有益模式的过程.Parsaye定义数据挖掘是我们为那些未知的信息模式而研究大型数据集的一个决策支持过程.这些表达方式虽然不同,但从各自的角度描述出了对数据挖掘的理解.这里我们主要从技术和商业的角度给出数据挖掘的定义.,2023/2/23,1、数据挖掘的技术定义,从技术角度,数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不

7、知道的、但又是潜在有用的信息和知识的过程.它是涉及机器学习、模式识别、统计学、人工智能、数据库管理及数据可视化等学科的边缘学科.,2023/2/23,这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;这些知识是相对的,是有特定前提和约束条件的,在特定领域中具有实际应用价值.,2023/2/23,什么是知识呢?从广义上理解,数据、信息是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识.人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样.发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也

8、可以是归纳的.发现的知识可以被用于信息管理、查询优化、决策支持和过程控制等,还可以用于数据自身的维护.,2023/2/23,2、数据挖掘的商业定义,从商业应用角度看,数据挖掘是一种新的商业信息处理技术。其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性知识,即从一个数据库中自动发现相关商业模式。,2023/2/23,数据挖掘也可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,且进一步将其模型化的数据处理方法.,2023/2/23,二、数据挖掘与知识发现(DM&KDD),1、知识发现(Kn

9、owledge Discovery in Database)过程 知识发现过程可以粗略的理解为三部曲:数据准备(data preparation)数据挖掘(data mining)结果的解释评估(interpretation and evaluation),2023/2/23,知识发现过程示意图,2023/2/23,数据准备又可分为三个子步骤:数据选取、数据预处理和数据变换.数据选取的目的是确定发现任务的操作对象,即目标数据.数据预处理一般可能包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等.数据变换的主要目的是消减数据维数或降维,即从初始特征中找出真正有用的特征以减少数据开采

10、时要考虑的特征或变量数.,2023/2/23,数据挖掘阶段主要是确定开采的任务,如数据总结、分类、聚类、关联规则发现或序列模式发现等.,2023/2/23,结果解释和评价主要是数据挖掘阶段发现出的模式,经过用户和机器的评价,可能存在冗余或无关的模式,这时需要将其剔除。如果有的模式不满足用户要求,需要将整个发现过程退回到发现阶段之前。最终结果是要面向用户,有时要对发现的模式进行可视化,或着将结果转化为用户易懂的另一种形式.,2023/2/23,2、数据挖掘的地位,KDD是一种知识发现的一连串程序,数据挖掘只是KDD的一个重要程序.数据挖掘主要是利用某些特定的知识发现算法,在一定的运算效率的限制内

11、,从数据中发现有关的知识,即隐藏的模式.数据挖掘是KDD中最重要的一步,在KDD的全过程中起到了至关重要的作用.因此,人们往往不加区别地使用数据挖掘和KDD.,2023/2/23,三、海量数据分析中遇到的问题,2023/2/23,Given 7 2 5 8 11 1 6What is the mean?What is the median?What is the first quartile?What is the third quartile?,Introductory Statistics,2023/2/23,Mean,Put in order 1 2 5 6 7 8 11 Q1 Medi

12、an Q3,2023/2/23,Given x1,x2,x3,xnWhat is the mean?What is the median?What is the first quartile?What is the third quartile?,2023/2/23,Mean,Put in order x(1)x(2)x()x(n-1)x(n)Median,2023/2/23,Given x1,x2,x3,xnwhere n=300,000,000.What is the mean?What is the median?What is the first quartile?What is th

13、e third quartile?,Database,Data StructureA+100-A=0,2023/2/23,四、数据准备,(一)数据选择(二)数据预处理(三)数据变换,2023/2/23,1、原始数据的表述,数据样本是数据挖掘过程的基本组成部分,(一)数据选择,2023/2/23,每个样本都用几个特征来描述,每个特征有不同类型的值。常见的类型有:数值型和分类型。数值型包括实型变量和整型变量注:具有数值型值的特征有两个重要的属性:其值有顺序关系和距离关系。,2023/2/23,分类型变量的两个值可以相等或不等。一个有两个值的分类型变量原则上可以转化成一个二进制的数值型变量,这种数值

14、型变量有两个值:0或1;而有N值的分类型变量原则上可以转化成一个二进制的数值型变量,这种数值型变量有N个值。,2023/2/23,例如:如果变量“眼睛颜色”有4个值:黑色、蓝色、绿色、褐色。特征值 编码 黑色 1000 蓝色 0100 绿色 0010 褐色 0001,2023/2/23,2、数据分类 一种基于变量值的数据分类方法就是定性(qualitative)和定量(quantitative).定性数据也可以看作是离散型数据,是用描述性术语来区分值.例如,性别通常分为男性(M)和女性(F).有一种特殊的定性数据就是周期型数据,例如星期、月或年中的日期.,2023/2/23,定量型也叫连续型或

15、度量型,是以数字值为特征,用于开发预测.如果建立了优先规则,定性型数据也可以转换成定量型数据.如,性别就可以规定性别值为1和2,1表示“M”或男性,2表示“F”或女性.,2023/2/23,定量型共有四种,1)标称数据(nominal data).表示类别或属性的数值数据,如表示性别的数字值.表示性别的数字值(1或2)就是标称数据值.标称数据的一个重要特性是它没有相关重要性.如,即使男性=1,女性=2,也不意味着女性的值是男性的2倍或更高.对于建模来说,只有两个值的标称变量应编码为0和1.,2023/2/23,2)序数数据(ordinal data).序数数据是表示有相对重要性的类别的数值数据

16、,可用于给强度、重要性分等级.例如,用1-5表示用户对某产品的质量评价,分别表示很差、较差、中等、较好、很好.,2023/2/23,3)间隔数据(interval data).间隔数据是有相对重要性,没有0点的数值数据.对它而言,加、减是有意义的操作.例如,可以用更详细的数字来分析产品质量的好坏,可以用0-100之间的数字具体分析产品之间的差距.,2023/2/23,4)连续数据(continuous data).连续数据是开发预测模型时最常用的数据,适用于所有基本的算术运算,包括加、减、乘、除.大多数业务数据如销售额、余款、差额等都是连续数据.,2023/2/23,另一种数据分类维度是基于数

17、据与时间有关的行为特性.我们把那些不随时间的变化而变化的数据称为静态数据.而另一部分随时间变化而变化的属性值,我们称之为动态数据或时间数据.在大多数的数据挖掘算法中都使用的静态数据,若要使用动态数据,则需要进行特殊的考虑和预处理.这方面的内容将在后面介绍.,2023/2/23,(二)数据预处理,1、噪声数据的处理 噪声(noise)是一个被测变量中的随机误差或偏差.下面我们将要讨论给定一个数值型属性,要如何平滑数据去除噪声的方法.1)数据的平整 一个数值型的特征y可能包括许多不同的值,这些数据之间的小小差异也许并不重要,但是却有可能影响到挖掘方法的性能甚至最终结果.实际上我们也可以把这些数据之

18、间的差异看成是同一数值的随机变差,因此有时对这些数据进行平整处理还是很重要的.,2023/2/23,2023/2/23,有些情况下的平整算法比较复杂,这将在以后的章节详细讨论.减少不同的数值数目意味着同时减少了数据空间的维度,这对数据挖掘的方法十分有利.这样的平整方法可用于将连续型特征分解成一系列离散二元“真假”值的特征.,2023/2/23,2)Bin方法.Bin方法也就是分箱方法,是通过利用相应被平滑数据点的“邻居”(即周围的值),对一组排序数据进行平滑.排序成的这些数据被分配到一些“桶”或箱中.由于Bin方法考察的是相邻的值,因此它进行局部平滑.,2023/2/23,下面给出了一些Bin

19、的方法技术,2023/2/23,2023/2/23,2023/2/23,3)聚类方法.通过聚类分析可以检测到异常数据,也就是孤立点.聚类将相似或相邻近的数据聚合到一起形成了各个聚类集合.直观地看,落在聚类集合之外的值就被认为是孤立点.孤立点之值作为噪声处理,将其删除,试用“聚类”中心值代替.有关聚类分析的思想和方法将在第五章中详细讨论.,2023/2/23,4)计算机与人工检查结合.这也是一种识别孤立点的方法.例如:在实际应用中,使用信息理论度量可以帮助识别手写符号库中的异常模式.度量值反映要判断的字符与已知的符号要相比的“差异”程度.孤立点模式可能是提供有用的信息(识别有用的数据异常),也可

20、能是错误的信息.将所识别出的孤立点输出到一个列表中,然后使用人工对这一列表中的孤立点进行检查,识别出真正的垃圾,这种人机结合的方法要比单单使用人工来搜索整个数据库快得多了.在其后的数据挖掘中,这些垃圾模式将由数据库中清除掉.,2023/2/23,5)回归分析法 可以通过回归关系,根据大量统计数据,找出变量之间在数量变化方面的统计规律,从而消除变量之间的随机关系,以达到拟合函数对数据平滑的目的.例如可以借助线性回归(linear regression),拟合一个变量与其他多个变量之间的关系,这样就可以用这一关系以一组变量值来帮助预测另一个变量.通过回归分析可以消除随机因素,除去噪声.,2023/

21、2/23,6)样条方法 样条方法是以适当控制通过一组给定的数据点的曲线.B样条(Basic splines)在样版权法的理论和应用研究中起着很基本的作用.局部性质是B样条曲线最重要的性质之一,在部分参数区域上的一点到多与k+1个控制顶点有关,与其他的无关,因此改变这部分的控制顶点至多影响到这部分的曲线,其余不会受到影响.它在每曲线段内部是无限次可微,并且随着次数k的升高,曲线会越来越光滑.通过用B样条去拟合数据,可以经过调整增加曲线的光滑度去除噪声.,2023/2/23,2、异常的分析,2023/2/23,2023/2/23,2)距离检测法,例如:数据集为:S=S1,S2,S3,S4,S5,S

22、6,S7=(2,4),(3,2),(1,1),(4,3),(1,6),(5,3),(4,2)欧氏距离 d=(X1-X2)2+(Y1-Y2)21/2 取阈值距离为 d=3,2023/2/23,2023/2/23,根据所用程序的结果和所给的阈值,可选择S3和S5作为异常点。,2023/2/23,2023/2/23,3、缺失数据,2023/2/23,2023/2/23,2023/2/23,2023/2/23,2023/2/23,我们看一个替代的例子 注 1:缺点是替代值并不是正确值,会引起数据的偏差。注 2:假设这些丢失值对最终的数据挖掘结果没有任何影响,我们可以将一个丢失值的样本扩展成为一组人工样

23、本(会引起样本的组合爆炸)。例如:如果一个三维样本被假定为,其中第二个特征值丢失,这样在特征定义 内产生5个人工样本:,2023/2/23,(三)数据变换,1、标准化 一些数据挖掘方法,需要对数据进行标准化以获得最佳的效果。1)小数缩放 小数缩放移动小数点,但是要仍然保持原始数据的特征。典型的缩放是保持数值在-1和1范围内。可以用格式描述,2023/2/23,2)最小-最大标准化 最小-最大标准化的格式:注:这种转换可能会导致标准化值无意识的集中。,2023/2/23,3)标准差标准化标准差标准化的格式是 其中:是均值;是标准差,2023/2/23,2、高维度问题大多数数据挖掘问题的出现是因为

24、有大量的样本具有不同类型的特征。此外,这些样本往往是高维度的,这就意味着它们有相当大数目的可测量特征。大型数据集中这种高维现象会产生“高维祸根”(维数灾),这种现象可以用高维空间几何学来解释,这是数据挖掘问题的典型。,2023/2/23,注意:数据集的大小随维数呈指数增长,这个数据集在一个n维空间中生成数据点的相同密度 例如:n个数据点的一维样本,其密度令人满意的,那么,要在k维空间中获得同样的密度,需要nk 个数据点。注意:几乎每一个点都是异常点,高维空间的物体比低维空间的物体拥有更大的面积。,2023/2/23,3、差值和比率 设数值型变量 的数值为,其差值转换为;比率转换为。,2023/

25、2/23,应该注意:有时是对于样本的不同属性进行转换。例如:在很多的医学数据集中,一个病人有两个属性特征,身高和体重,应用表明用一个新的叫做身体素质指标体重和身高加权比,来反映诊断结果会更好。,2023/2/23,设一个时间序列为:Xt t1,2,n 在应用数据挖掘技术之前,必须对原始数据进行预处理,总结它的特征,多数情况下,预测Xn+1-Xn的差比预测Xn+1的绝对值作为输出效果要好。同样,Xn+1/Xn揭示了变化的百分比,有时用这个比值也能得到更好的预测效果,3、时间相关数据,2023/2/23,对数据集的特征进行总结的一种方法是取平均,得出“移动平均数”(MA),计算公式为其中m为移动次

26、数,2023/2/23,对数据集的特征进行总结的另一种方法是指数移动平均(EMA),计算公式为:其中 是介于0到1的值,2023/2/23,这类数据中有一种非常重要的数据叫做幸存数据,它是关于一个特定时间发生需要多长时间的数据。例如:在很多医学应用中,特定时间是病人的死亡,所有我们分析病人的幸存时间;在工业应用中,特定时间常常是机器中的一个部件出现事故。幸存数据有两个区别于其他数据挖掘数据的重要特征:第一个特征叫做审查。在很多研究中,直到研究期末时间事件都没有发生(审查观测)第二个特征是输入值与时间有关。,2023/2/23,从以上可以看出,不但统计学者应该关心数据挖掘的发展,而且已经为数据挖掘的发展作着贡献。我们要正确地认识这一点,要逐渐地加强统计学对信息科学的影响,促使别的领域的同事们增强了解统计学的价值和重要性,扩大统计学理论研究和实际应用的市场,保持统计学的健康发展和生命力。,2023/2/23,thanks for Your presence,Any Questions?,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号