《大数据分析与挖掘.pptx》由会员分享,可在线阅读,更多相关《大数据分析与挖掘.pptx(28页珍藏版)》请在三一办公上搜索。
1、大数据与机器学习,海量数据可广泛获得,所稀缺的是如何从中挖掘出智慧和观点。Google 首席经济学家 Hal Varian 大数据分析主要依靠机器学习和大规模计算,机器学习已成为大数据的基石。机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。简而言之,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。,机器学习的常见用途,统计分析与数据挖掘,什么是数据挖掘?,数据分析与数据挖掘的区别
2、,数据分析只是在已定的假设、先验约束上处理原有计算方法,统计方法,将数据分析转化为信息,而这些信息如果需要进一步的获得认知,转化为有效的预测和决策,这时就需要数据挖掘,数据分析是把数据变成信息的工具,数据挖掘是把信息变成认知的工具,如果我们想要从数据中提取一定的规律(即认知)往往需要数据分析和数据挖掘结合使用。,大数据分析与挖掘的常见用途,1、自动预测趋势和行为,数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。,谷歌预测冬季流感的传播,初步锁定与流感相关的关键词条,谷歌数据库用户搜索记录,美国疾控中心记录的流感事件发生的区域和时间,预
3、测模型,预测结果,谷歌准确的预测出2009年甲型H1N1流感的爆发,并明确指出爆发地所在的州以及时间。与滞后的官方数据相比,谷歌成为一个更有效及时的指示者。,优化词条筛选,大数据分析与挖掘的常见用途,2、关联分析,数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。,购物篮分析,经过关联分析,发现顾客经常同时购买的产品中,啤酒与尿布同时出现的频率最高,大数据分析与挖掘的常
4、见用途,3、聚类,数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。,经过对电信行业用户的特征进行聚类,可以完成客户的画像,可以基于多个维度完成画像,也可以基于关联分析的基础上进行降维处理后再开展画像。,群体A:年龄50岁以上 年收入20K以下 月话费支出50元以下群体B:年龄3050岁 年收入80K以上 月话费支出200元以上群体C:年龄2030岁 年收入50K 月话费支出100元,大数据分析与挖掘的常见用途,4、概念描述,概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者
5、描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。,决策树,大数据分析与挖掘的常见用途,4、概念描述,概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。,大数据分析与挖掘的常见用途,5、偏差检测,数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在
6、的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。,一个人的年龄为-999可能是程序处理缺省数据的方式导致的一个公司的高管工资明显高于普通员工可能成为异常数据但也许是合理的一部住宅电话的话费由每月200元以内增加到数千元可能因为盗打或其他原因所致一张信用卡突然出现明显的高额消费也许是因为盗用的信用卡,1、异常数据与众不同,往往具有相对性 如高与矮、疯子与常人2、常用的检测方法 异常挖掘、离群挖掘、例外挖掘、稀有事件挖掘,大数据分析与挖掘项目的特点,1.1大数据分析与挖掘经常是从技术角度切入:
7、未知的探索1.2比传统项目多了很多尝试成本:1.3算法与模型的适用性与时间、地域以及其他外部条件影响1.4经常要在目标要求与算法的复杂性、性能之间做出取舍,数据挖掘工作常见误区,只依赖一项技术/算法,MCLP多目标线性规划算法,KNNK近邻算法,数据挖掘工作常见误区,同样研究对象应用一种模型,算法模型的选择,需要考虑模型对数据的适用性,只有结合数据的内在特征、模型的假设条件,才能建立合适的模型,也只有针对具体数据集,才能谈模型的好坏。因此数据本身的差异,决定了算法模型选择的差异。即使研究目的相同,研究对象相似,由于影响数据生成过程的因素差异性较大,数据的具体表现形态也有较大差异,算法也会有截然
8、不同。随着时间的推移,数据的形态发生改变,因此有可能需要重新选择合适的模型,或者,对原有相同模型进行参数调整。,数据挖掘工作常见误区,缺乏数据,对于分类问题或预估问题来说,常常缺乏准确标注的案例。,例如:欺诈侦测(Fraud Detection):在上百万的交易中,可能只有屈指可数的欺诈交易,还有很多的欺诈交易没有被正确标注出来,这就需要在建模前花费大量人力来修正。信用评分(Credit Scoring):需要对潜在的高风险客户进行长期跟踪(比如两年),从而积累足够的评分样本。,数据挖掘工作常见误区,同样研究对象应用一种模型,负荷较稳定专业技术支持,负荷总量逐步提高至稳定,周期性强节假日特性强
9、日夜负荷差大,有学校的台变,成熟小区台变,商铺较多的台变,新建小区台变,大数据分析与挖掘项目的开展,大数据分析与挖掘的标准流程,数据挖掘方法论,跨行业数据挖掘标准流程(CRISP-DM),业务理解,数据理解,数据准备,评估,部署,需求分析:从业务的角度理解项目的目的、范围、业务定义。问题识别:识别需求中待所需业务问题的内涵。问题定义:对业务问题进行定义,确定问题概念范畴。问题分解:将复杂问题分解为几个相当对简单的子问题。问题转化:将业务问题转化为能够被数据挖掘问题。,关键要素:问题转化,工作内容,将业务需求转化为数据挖掘问题。如:分类、推荐、回归、聚类、关联规则分析、时间序列分析、特征选择、流
10、数据分析等。,建模,数据挖掘方法论,关键要素:数据定义、数据质量分析,工作内容,熟悉并数据理解原始数据的含义及产生条件,识别数据的质量问题,发现数据的内部属性。,数据定义:识别并理解原始数据中属性数据的含义。如:数据库中表的结构,数据表之间的关系,数据表每一列的含义、格式、约束条件等等。数据质量分析:对数据的质量进行分析。基本统计量:缺失值数量、均值、方差、中值、频数、分位数、T检验、Z检验等等。可视化:点图、箱型图、柱状图等。异常值:聚类、异常值检测,业务理解,数据理解,数据准备,评估,部署,建模,数据挖掘方法论,关键要素:数据选择、数据整合、数据衍生、数据转换、数据清洗,工作内容,从原始数
11、据中构造最终数据集的所有活动。这些数据将是建模的输入值。这个阶段的任务有个能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。,数据选择:在原始数据的基础上进行筛选,根据问题定义进行数据选择。如:使用全部数据、n fold分块方式、按比例方式、Bootstrap等。数据衍生:从原始数据属性的基础上派生出新的数据属性。基本派生:均值、中值、频数、最小(大)值、线形变换等。根据业务的派生:净资产、净资产收益率、折现率等。数据转换:对原始数据进行变换,以满足数据挖掘模型需要。离散化化处理:非数据型数据转数值型,如性别、职业、区域等。数据平滑处理:非平滑数据转化
12、成平滑数据,如时序数据中股票价格、成交量等。可视化:点图、箱型图、柱状图等。异常值:聚类、异常值检测,业务理解,数据准备,数据理解,评估,部署,建模,数据挖掘方法论,关键要素:数据选择、数据整合、数据衍生、数据转换、数据清洗,工作内容,从原始数据中构造最终数据集的所有活动。这些数据将是建模的输入值。这个阶段的任务有个能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。,数据清洗:对数据中的异常情况进行清理,提升数据质量。缺失值处理:均值、按类别取均值、聚类均值、Bayes Rule、近邻学习 异常值处理:装箱、聚类、回归、人工处理 一致性处理:基于规则、
13、人工数据整合:将多个数据源中的数据有机整合到一起。如:关系数据SQL查询、按ID整合、Tag信息整合、异构数据整合。数据归约:数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近地保持原数据的完整性,数据归约可以解决海量数据上造成的效率与性能问题。如:数据方聚集、维归约、数据压缩、离散化和概念分层产生。,业务理解,数据准备,数据理解,评估,部署,建模,数据挖掘方法论,关键要素:模型选择、模型训练、模型最优参数选择、模型优化,工作内容,选择并应用不同的数据挖掘模型,通过模型参数调整来获得最佳模型。有些模型可以解决一类相同的数据挖掘问题。有些模型在数据生成上有特殊要求,因此可能需要经常返回
14、到数据准备阶段。,模型选择:根据业务理解阶段的问题转化选择不同的数据挖掘模型 分类:SVM、Logistic Regression、MCLP、Decision Tree等。推荐:基于内容、基于知识、协同过滤、基于效用等。回归:SVM、Linear Regression、Gaussian Process等。聚类:Kmeans、Kmedoids、Affinity Propagation、EM 关联规则:apriori、fp-tree等。模型训练:使用数据准备阶段所准备的数据对所选模型进行训练。概率论、统计学、随机过程;机器学习;人工智能;最优化理论,业务理解,建模,数据理解,评估,部署,数据准备,
15、数据挖掘方法论,关键要素:模型选择、模型训练、模型最优参数选择、模型优化,工作内容,选择并应用不同的数据挖掘模型,通过模型参数调整来获得最佳模型。有些模型可以解决一类相同的数据挖掘问题。有些模型在数据生成上有特殊要求,因此可能需要经常返回到数据准备阶段。,模型最优参数调整:在选定模型后,需要对模型的参数进行进一步的调整,以使模型对数据有良好泛化能力。网格搜索(Grid Search):为每个模型参数设定一个候选集合,从全部参数的组合中根 据评价指标选取最好的模型参数。遗传算法:每一个候选参数集合是遗传算法中的一个个体,通过个体选择、参数间交叉、变异来选择较好的候选参数集合。模型优化:进一步优化
16、模型以满足具体的业务需求。如:时间复杂度、空间复杂度、计算成本复杂度等等。,业务理解,建模,数据理解,评估,部署,数据准备,数据挖掘方法论,关键要素:基本指标评估、业务指标评估,工作内容,从数据分析的角度已经建立了一个高质量的模型。检查构造模型的步骤,确保模型可以完成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被充分的考虑。,基本指标评估:从模型的角度对所选模型进行评估,判断是否需要调整或重新选择模型。如:混淆矩阵(Confusion Matrix)、ROC、AUC、K-S指标等等。业务指标评估:从业务的角度对所选模型进行评估,判断是否需要调整或重新选择模型。如,存款额、营业额、利
17、润率、挽回客户价值等等。,业务理解,评估,数据理解,建模,部署,数据准备,数据挖掘方法论,关键要素:模型实现、系统集成、可视化分析,工作内容,模型的创建不是数据挖掘项目的结束。模型的作用是从数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。根据不同的应用需求,这个阶段可以产生简单的报告,或是实现一个比较复杂的、可重复的数据挖掘过程。通常来讲,一般由更加理解自身的需求的用户进行部署。,模型实现:通过特定的软件平台将模型实现,以在真实的生产系统中使用。系统集成:将数据挖掘模型集成到实际的生产系统当中。可视化分析:最终成果的可视化展示,必要时需要同时对历史数据以及模型输出结果数据等进行
18、综合的可视化分析,便于分析历史、判断未来、比较差异等。,业务理解,部署,数据理解,建模,评估,数据准备,数据挖掘方法论,大数据分析与挖掘项目的开展,数据质量要求与处理,数据挖掘工作常见误区,只依赖一项技术/算法,MCLP多目标线性规划算法,KNNK近邻算法,数据挖掘工作常见误区,同样研究对象应用一种模型,算法模型的选择,需要考虑模型对数据的适用性,只有结合数据的内在特征、模型的假设条件,才能建立合适的模型,也只有针对具体数据集,才能谈模型的好坏。因此数据本身的差异,决定了算法模型选择的差异。即使研究目的相同,研究对象相似,由于影响数据生成过程的因素差异性较大,数据的具体表现形态也有较大差异,算法也会有截然不同。随着时间的推移,数据的形态发生改变,因此有可能需要重新选择合适的模型,或者,对原有相同模型进行参数调整。,