数据挖掘基本概念与应用ppt课件.ppt

资源描述

《数据挖掘基本概念与应用ppt课件.ppt》由会员分享，可在线阅读，更多相关《数据挖掘基本概念与应用ppt课件.ppt（54页珍藏版）》请在三一办公上搜索。

1、报告内容,数据挖掘的基本概念数据挖掘与统计分析数据挖掘的基本算法数据挖掘实施方法论总结与讨论,数据挖掘的基本概念,改变未来世界的十大新兴技术,Technology Review（麻省理工学院2002年1月出刊）机器与人脑的接口塑胶晶体管数据挖掘（Data Mining）数字权利管理生物测定学（Biometrics）语言识别处理微光学技术（Microphotonics）解开程序代码（Untangling Code）机器人设计微应用流体学（Microfluidics）,什么是数据挖掘？,Data,Information,Knowledge,Wisdom,存在太多数据挖掘的定义，但基本上有这

2、样一种描述结构To find / discover / extract / dredge / harvest 、Interesting / novel / useful / implicit / actable / meaningful 、Information / knowledge / patterns / trends / rules / anomalies 、In massive data / large data set / large database / data warehouse 、,Data + context,Information + rules,Knowledge +

3、 experience,为什么会出现数据挖掘？,数据爆炸性增长是数据挖掘技术应运而生的根本原因。只见树木，不见森林（Drowning in data but starving for information）计算复杂度数据管理问题数据类型的多样性,处理大容量数据是数据挖掘技术区别于其他数据分析方法的唯一标志吗？,其他数据分析方法：统计学,从处理数据的角度看、数据规模不同数据来源不同：观测数据（Secondary Analysis） VS 试验数据（Primary Analysis）数据类型不同（结构化数据、半结构化数据、非结构化数据）从分析思想的角度看更关注实证性分析（Empirical An

4、alysis）而非探索性分析（Exploratory Analysis）更关注模型（Model）而非算法（Algorithm）但二者具有相当密切的联系从数据分析的角度，统计学现在是且仍将是数据挖掘最重要的技术支撑和思想源泉更加深入的渗透和交叉（如探索性数据分析，EDA）,数据挖掘是数据驱动的探索性分析 !,数据挖掘：多学科的汇合,数据挖掘,数据库技术,统计学,其它学科,信息科学,机器学习,可视化,人工智能,科学计算,数据挖掘是一个过程,“from data mining to knowledge discovery in database”. U. fayyad, G.P.Shapiro an

5、d P.Smyth (1996),数据挖掘过程中的数据预处理,数据清洗填充缺失值, 修均噪声数据, 识别或删除孤立点, 并解决数据不一致问题主要分析方法：分箱（Binning）、聚类、回归数据集成多个数据库、数据方或文件的集成数据变换规范化与汇总数据简化减少数据量的同时, 还可以得到相同或相近的分析结果主要分析方法：抽样、主成分分析数据离散化数据简化的一部分, 但非常重要 (尤其对于数值型数据来说),数据挖掘过程中的数据探索,探索性数据分析（Exploratory Data Analysis, EDA）探索性地查看数据，概括数据集的结构和关系对数据集没有各种严格假定“玩”数据主要任务数据可视化

6、（a picture is worth a thousand words）残差分析（数据拟合 + 残差）数据的重新表达（什么样的尺度对数抑或平方根会简化分析？）方法的耐抗性（对数据局部不良的不敏感性，如中位数耐抗甚于均值）常见方法统计量，如均值、方差、根方差、协方差、峰度、偏度、相关系数等统计图，如饼图、直方图、散点图、箱尾图等模型，如聚类,什么不是数据挖掘？,定量分析（Quantitative Analysis）的需要存在企业管理运行的各个侧面或环节，但并非所有的定量分析问题都可以归结到数据挖掘范畴的问题。简单的报表、图表及多维分析仍是日常分析工作的主要内容小样本数据的分析传统统计分析方法更

7、成熟有效，如趋势预测某些特定业务问题无法用数据挖掘算法加以解决，例如资源最优配置问题是个运筹学问题某些物流管理问题或者供应链管理问题是个随机规划问题营销预演本质是个系统仿真问题,报告内容,数据挖掘的基本概念数据挖掘与统计分析数据挖掘的基本算法数据挖掘实施方法论总结与讨论,数据挖掘与统计分析,统计学与数据挖掘的联系,从处理数据数据挖掘中采用了大量统计学的思想、方法和工具聚类分析（无监督学习过程，统计分析中的主要技术）K-MeansSelf Organizing Map (SOM)数据分类（有监督学习过程）统计分类技术：距离判别，费雪判别，贝叶斯判别数据挖掘中的分类技术：决策树，神经网络

8、其他方法相关分析主成分分析回归分析序列分析,统计学与数据挖掘的区别,数据样本数量不同（在统计学中样本数量大于30，则成为大样本）数据来源和质量不同数据挖掘既可以处理结构化数据，也可以处理非结构化和异型数据方法数据挖掘的前提是占有大量数据，统计中的实验设计、抽样设计并不适用有些数据挖掘的分析方法是统计学中没有的，如强调实时分析统计分析方法在对大规模数据处理时占用系统的资源和时间太多，不适宜采用，因此数据挖掘大量采用神经网络、遗传算法等人工智能方法模型（模式）模型（统计学） VS 模式（数据挖掘）统计建模强调模型的普适性，数据挖掘强调从数据中发现模式算法统计学强调模型，运算量居于次要地位数据挖掘

9、的精华在于结果的未知性，强调探索性分析，与之对应的是算法而不是模型方法论统计学：以数学为基础，每种方法有严格的证明体系数据挖掘：采用实验方法，不具有很强的严谨性,数据挖掘相对于统计学的特点,使用数据挖掘工具无须具备太专业的统计知识，处理大量的实际数据更有优势，使得数据挖掘人员可以集中精力在业务建模方面数据挖掘从大型数据库提取所需数据，利用专属计算机软件进行分析，更能满足企业的需求从理论的角度来看，数据挖掘与统计学不同，其目的在于方便企业的末端使用者应用，而非为统计学家提供检验工具,报告内容,数据挖掘的基本概念数据挖掘与统计分析数据挖掘的基本算法数据挖掘实施方法论总结与讨论,数据挖掘的

10、基本算法,几个基本概念,模型（Model） vs 模式（Pattern）数据挖掘的根本目的就是把样本数据中隐含的结构泛化（Generalize）到总体（Population）上去模型：对数据集的一种全局性的整体特征的描述或概括，适用于数据空间中的所有点，例如聚类分析模式：对数据集的一种局部性的有限特征的描述或概括，适用于数据空间的一个子集，例如关联分析算法（Algorithm）：一个定义完备（well-defined）的过程，它以数据作为输入并产生模型或模式形式的输出描述型挖掘（Descriptive） vs 预测型挖掘（Predictive）描述型挖掘：对数据进行概括，以方便的形式呈现数据的

11、重要特征预测型挖掘：根据观察到的对象特征值来预测它的其他特征值描述型挖掘可以是目的，也可以是手段,几类基本的挖掘算法,关联规则（模式、描述型）发现数据集中的频繁模式例如：buy(x,”diapers”) buy(x,”beers”) 0.5%, 60%分类与预测（模型、预测型）发现能够区分或预测目标变量（唯一的）的规则或者函数分类的目标变量一般是类别型的，而预测则是数量型的，并不必然带有任何时间延续型的暗示例如：股票市值的预测，病人病情的判断聚类（模型、描述型）对数据分组以形成新类，类标记是未知的例如：市场细分孤立点探测（Outlier Detection）（模式、预测型）分析异常或噪声数据的

12、行为模式例如：欺诈检测,广东发展银行信用卡中心的数据挖掘模型,申请评分卡 (分类模型、Logistic回归算法)计算申请信用卡的人在将来产生坏账的概率自变量是离散型变量评分需要进行标准化处理行为评分卡 (分类模型、Logistic回归算法)包括：拖欠、催收、销售等自变量是连续型变量,广东移动数据挖掘项目中的数据挖掘算法,客户流失 (分类模型、Logistic回归算法) 彩铃WAP购买倾向预测 (分类模型、Logistic回归算法) 彩信增量销售预测 (分类模型、Logistic回归算法) 彩铃用户流失预测 (分类模型、Logistic回归算法) 客户价值增长预测 (分类模型、Logistic

13、回归算法) 竞争对手流失预测 (分类模型、Logistic回归算法) 集团客户分群 (聚类模型、K-Means算法) 集团客户级别打分 (分类模型、Logistic回归算法) 产品关联分析 (关联规则) 个人客户分群分析 (聚类模型、K-Means算法) 集团客户流失预警模型 (AHP方法 + Logistic回归算法),客户分群 (聚类模型、K-Means算法)客户流失 (分类模型、Logistic回归算法)潜在用户定位 (分类模型、Logistic回归算法)商城的交叉销售 (关联规则)产品收入预测（时间序列的预测方法）,腾讯公司中的数据挖掘算法,分类问题的基本定义,给定一数据集合（训练集

14、）数据记录由一系列变量组成其中有一个变量是目标分类标签寻找一模型，使目标分类变量值是其他变量值的一个函数利用上述函数，一未知分类变量值的数据记录能够尽可能准确地被判定到某一类别中去一般会有另一独立地数据集（测试集）用以验证所构建分类函数的准确性，避免过度拟合,分类过程示意,训练集,分类学习,训练集,分类器,IF rank = professorOR years 6THEN tenured = yes,Jef is YES!,回顾简单的一元线性回归问题,y = b0 + b1x + u y称为被解释变量或者因变量，是一个连续变量 x称为解释变量或者自变量，是一个连续变量 b0 、b1称为回归系数

15、 u是随机误差，一般假设服从标准正态分布,y,x,y = b0 + b1x + u,.,.,.,.,.,.,.,.,Logistic回归进行分类和预测,LOGISTIC回归是一种特殊的回归模型，与古典的线性回归模型不同，其响应变量（Response Variable）是一分类变量（Categorical Variable）而非连续变量（Continuous Variable）。响应变量是一个二值化的变量，通常以10表示某一事件发生或者不发生。应用Logistic回归得到的概率p通常表示在将来某段时间后某一事件发生的概率。,Odds: 目标事件发生的数量 / 非目标事件发生的数量.Odds ra

16、tio= prob(目标事件)/prob(非目标事件)=p/(1-p)p = prob(目标事件)prob表示事件发生的概率Logit: log of odds ratio = log(p/(1-p)Logistic回归: 拟合下面的模型logit=a0+a1*X1+ak*Xkp=prob(目标事件)=exp(logit)/(1+exp(logit) p的取值范围: 0,1,p,流失类模型案例,建模目的：预测某一段时间之后客户流失的概率。确定时间窗口：确定目标变量：定义在Data Window中正常而在Forecast Window中流失的客户为0，而没有流失的客户为1。选择自变量：在电

17、信的客户流失模型中，我们一般使用下面几种类型的变量。客户流失指标客户信息数据（人口统计学数据、合同数据）呼叫数据计费和支持数据一些转换之后得到的变量其它数据,流失类模型案例,模型的评价Lift值R方ROC曲线K-S值模型的应用P值大的客户具有更高的流失倾向模型的评分分布划定Cut Off Line。对Cut Off Line的划定可以采用更多的市场数据进行参考，如正确挽留一个客户准备的平均收益和成本，错误挽留一个客户的平均成本，客户流失的平均损失等。有了这些数据可以进一步使用贝叶斯方法建立数量化的分类模型，以确定对Cut Off Line的划定。,频数,评分,0,10000,Cu

18、t Off Line,非流失,流失,分类中的决策树（Decision Tree）归纳,决策树类似于流程图的树型结构内部节点代表对某个属性的一次测试分支代表测试的输出结果叶节点代表分类标签或分布决策树的生成包括两个阶段树的创建首先, 所有训练样本都位于根节点递归地基于选择属性来划分样本集树的修剪识别并删除那些反映噪声或孤立点的分支应用决策树: 对未知样本进行分类在决策树上测试样本的各个属性值,决策树示意,age?,overcast,student?,credit rating?,no,yes,fair,excellent,=30,40,no,no,yes,yes,yes,30.40,示例：是否

19、购买计算机？,决策树在电信客户流失问题中的应用实例,结论：ARPU=120元, 租期已满23个月以上，平均拨打电话少于270秒，六个月內账单迟缴4次以上，拨打号码平均少于10个的客户得分770。,聚类的基本概念,基本定义将数据对象集划分成事先未知的分组或类别聚类的原则：类内相似度高，类间相似度低相似度一般为某种距离函数D(i,j)聚类既可以作为独立分析工具考察数据分布结构，也可以作为其他分析方法的预处理步骤很不幸，对聚类结果的评价一般都是主观的基本分类将数据对象集划分成事先未知的分组或类别,聚类示意,基于欧氏距离的三维空间中的聚类基于质心的聚类算法(K-Means),A1,A2,B1,x,y,

20、z,个人客户分群示例,个人客户分群更好地了解客户的手段提高客户的管理和沟通能力提升客户价值,分群是根据客户的关键属性将客户分成不同的组别，要求做到组间差异化最大组内相似性最大,关联规则的基本概念,基本定义给定（1）事务数据集（2）每个事务是数据项的集合，试图发现项集中的频繁模式或关联关系所谓频繁模式或者关联规则就是一个具有“A B”形式的逻辑蕴涵式频繁模式并不必然蕴涵着因果关系或相关关系！算法实现基本上基于APRIORI法则：频繁项集的所有非空子集一定也是频繁（Frequent）的基本分类布尔关联规则 vs 定量关联规则buy(x,”diapers”) buy(x,”beers”)Age(x,

21、”30.39”) income(x,”42k.48k”) buy(x,”PC”)单层关联规则 vs 多层关联规则Age(x,”30.39”) income(x,”42k.48k”) buy(x,”IBM PC”)序列模式（Sequence Pattern）数据项是一个包含时间标签的序偶item(i),t,关联规则的量度,支持度：Support(A=B)=#AB/#N，表示A和B同时出现的概率。期望可信度：Support(A)=#A/#N，表示A出现的概率。置信度：Confidence(A=B)=Support(A=B)/Support(B)改善度：Lift(A=B)=Confidence(A=

22、B)/Support(B),关联规则的度量,发现具有最小置信度和支持度的全部规则 X Y Z 支持度(support), s, 事务中包含X & Y & Z的概率置信度(confidence), c, 事务中包含X & Y的条件下, 包含Z的条件概率,令最小支持度为50%, 最小置信度为50%, 则有A C (50%, 66.6%)C A (50%, 100%),顾客购买尿布,顾客购买两者,顾客购买啤酒,对支持度与置信度的批判,示例总共5000名学生, 其中3000人玩篮球3750人吃谷类食品2000人既玩篮球又吃谷类食品play basketball eat cereal 40%, 66.7

23、% 是一个误导规则, 因为吃谷类食品的学生占学生总数的75%, 比66.7%更高play basketball not eat cereal 20%, 33.3% 其实是一个更精确的规则, 尽管它的支持度和置信度都比较低,关联规则的应用,市场购物篮分析（Market Basket Analysis）例如一个事务是客户的一个购物清单，同一客户的两份清单被认为是两个不同的事务数据项是所有可能陈列货物的全集目标是发现同时出现的货品组合间的关联模式应用：商品货价设计、仓储规划、网页布局、产品目录设计等等交叉销售（Cross Selling）客户依次购买不同产品的序列目标是发现在购买某一产品组合之后客户

24、可能购买的另一产品或服务应用：网络故障分析、网站门户设计等,关联规则的应用实例（手机邮箱精确营销）,我们定义LIFT值大于1的规则为强关联规则。发现这样的关联规则是有价值，有意义的。关联规则是基于统计方法发现的数据当中的内在规律，而这种规律在现实中是否有意义还需要市场业务人员作进一步的验证。,从算法到应用,广东移动数据挖掘项目的技术特点,几种主要的数据挖掘技术都已经得到广泛的应用聚类分析关键规则分类预测模型（决策树，Logistic回归）应用了数据挖掘技术之外的机器学习和统计建模技术KPI预测（混沌时间序列分解预测方法，BP神经网络预测方法）集团客户流失预警（层次分析法）更多的数据分析方法新的

25、挖掘课题更侧重于高级数量分析客户生命周期（管理营销学的实践，多模型支撑的分析过程）响应模型（市场分析模型与数据挖掘模型的应用结合）运筹学模型（应用于经营规划的优化）,报告内容,数据挖掘的基本概念数据挖掘与统计分析数据挖掘的基本算法数据挖掘实施方法论总结与讨论,数据挖掘实施方法论,数据挖掘过程模型（DM Process Model）,用以管理并指导Data Miner有效、准确开展数据挖掘工作以期获得最佳挖掘成果的一系列工作步骤的规范标准。由厂商提出的SPSS的5A（Assess, Access, Analysis, Act, Automat）SAS的SEMMA（Sample, Expl

26、ore, Modify, Model, Assess）MICROSOFE的OLEDB for DM由行业组织提出的CRISP-DM（Cross Industry Standard Process for DM）CRISP-DM起源于1998年，当时NCR、Clementine（1998年为SPSS收购）、OHRA和Daimler-Benz（现为Daimler-Chrysler）的联合项目组提出CRISP-DM的六个阶段,TERADATA的挖掘方法论,Scope Business Problem 度量数称胜,Explore Business Facts in DB (EDA) 望闻问切,Mode

27、l 奇正之变，不可胜穷也,Deploy工欲善其事，必先利其器,Clean Data 谨防假做真时真亦假，无为有处有还无,Select & Sample 必也正名乎,CRISP-DM中的元任务（Generic Tasks）,CRISP-DM中的业务理解,CRISP-DM中的数据理解,电信行业数据挖掘与商务智能产业链,整体解决方案提供商,系统集成商,数据挖掘和商务智能用户,咨询服务提供商,专业化服务和实施维护商,交付解决方案和项目规划,交付产品和协助IT规划,提供用户需求分析,委托开发,需求分析和咨询服务,集成开发,系统维护和数据分析服务,整体解决方案提供商：NCR、IBM、Oracle、Micr

28、osoft、SAS特定解决方案提供商：DataStage等ETL工具Cognos、BO、Brio等报表工具Splus、SPSS等挖掘工具Unica等专业解决方案,系统集成商：AsiaInfo、联创宝信、中软、菲奈特,咨询服务提供商：埃森哲、德勤、华院、吉贝克,专业化服务和实施维护提供商：首航财务,数据挖掘厂商,报告内容,数据挖掘的基本概念数据挖掘与统计分析数据挖掘的基本算法数据挖掘实施方法论总结与讨论,总结与讨论,总结,数据挖掘的思想也许比我们想象的更加深邃数据挖掘的算法太多了，但用到一种，就要透彻把握一种数据挖掘是一个循环的探索过程，各个环节同等重要实施数据挖掘是一个战略性的举措数据挖掘不是万能的，没有数据挖掘也未必是万万不能的Business First, Technique Second,有待研究的课题,数据挖掘在SNS中的应用Streaming data analysis and mining (IBM 研究院）中文文本挖掘（中文预处理技术）Web Mining,参考文献,网络资源,Thank you !,

展开阅读全文