《大数据数据挖掘传统统计分析选择课件.pptx》由会员分享,可在线阅读,更多相关《大数据数据挖掘传统统计分析选择课件.pptx(19页珍藏版)》请在三一办公上搜索。
1、数据挖掘,中国检验检疫科学研究院-杨美红,数据处理技术的演进什么是数据挖掘数据挖掘的流程数据挖掘的常用方法数据挖掘的功能,技术的演进,传统数据分析(在20世纪70年代后)数据仓库(20世纪90年代)-数据挖掘(与数据仓库紧密相连)-智能分析系统(BI)-包含数据挖掘-大数据分析(BI升级版),什么是数据挖掘,数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD),是人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过
2、程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。,1.技术上的定义及含义 数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。2.商业角度的定义 数据挖掘是一种新
3、的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。,数据挖掘常用技术与算法,1、人工神经网络 2、决策树 3、遗传算法 4、近邻算法 5、规则推导6、算法:分类、回归、分割、关联、顺序分析,数据挖掘的常用方法,利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分
4、类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。回归分析。回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。聚类。聚类分析是把一组数据按照相似性和差异性分为几个
5、类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。,关联规则。关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据。特征。特征分析是从数据库中的一
6、组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。如营销人员通过对客户流失因素的特征提取,可以得到导致客户流失的一系列原因和主要特征,利用这些特征可以有效地预防客户的流失。变化和偏差分析。偏差包括很大一类潜在有趣的知识,如分类中的反常实例,模式的例外,观察结果对期望的偏差等,其目的是寻找观察结果与参照量之间有意义的差别。在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。Web页挖掘。,数据挖掘的功能,数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐
7、含的、有意义的知识,主要有以下五类功能。1、自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。2、关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分
8、析生成的规则带有可信度。,3、聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年代初,Mchalski提出了概念聚类技术牞其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。4、概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述
9、的方法很多,如决策树方法、遗传算法等。5、偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。,数据挖掘的流程,(1).确定业务对象(2).数据准备 1)、数据的选择 2)、数据的预处理 3)、数据的转换(3).数据挖掘(4).结果分析(5).知识的同化 数据挖掘需要的人员 数据挖掘过程的分步实现,不同的步会需要是有不同专长的人员,他们大体可以分为三类.业务分析人员:要求精通业务,能够解释业务对象,并根据
10、各业务对象确定出用于数据定义和挖掘算法的业务需求.数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术.数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据.,数据挖掘过程工作量分配,在数据挖掘中被研究的业务对象是整个过程的基础,它驱动了整个数据挖掘过程,也是检验最后结果和指引分析人员完成数据挖掘的依据和顾问.各步骤是按一定顺序完成的,当然整个过程中还会存在步骤间的反馈.数据挖掘的过程并不是自动的,绝大多数的工作需要人工完成.整个过程中工作量60%的时间用在数据准备上,这说明了数据挖掘对数据的严格要求,而后挖掘
11、工作仅占总工作量的10%.,数据挖掘与传统分析方法的区别,数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.数据挖掘所得到的信息应具有先未知,有效和可实用三个特征.先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值.在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系.,分析数据的准备与规划,1、明确分析数据的目的2、合理安排时间3、重收集也要重分析4、收集数据太多,导致无法整理
12、及分析时适度简化信息5、分析数据的目的明确,用数据来支撑目的6、表格美观简练,一般采用excel图表,大数据与工作相关,“大数据”多个定义,百度知道,互联网周刊,研究机构Gartner 均发布了各自定义。个人更倾向于互联网周刊定义:大数据让我们以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见,最终形成变革之力。大数据更多的是一种思维,关联性思维,代替以往追求的因果式思考。,研究数据的目的,从最开始的“情报”到现在的“大数据”在信息越来越多,无所适从或者需要节省有限精力来完成所定目标,利用各种工具来证明自己的观点。把数据从现实世界提取-整理到计算机数据库内的繁杂数据-梳理后的数据-筛选归纳后数据-最终的一条或几条观点支撑。,从技术层面严格来说,我国除了情报部门、气象部门、电子商务巨头、搜索引擎巨头、电信银行巨头,其他部门是无法管控与获得大数据的。“大数据”只是一种被华丽包装的概念,其实SAS通用分析软件、各大数据巨头BI系统均可成为是大数据处理系统。数据非万能,一切准备,皆为工作既定目标,技术服务于业务。技术有新旧,思维无优劣,能搞定业务即合格。,