《BI数据挖掘交流方案.ppt》由会员分享,可在线阅读,更多相关《BI数据挖掘交流方案.ppt(51页珍藏版)》请在三一办公上搜索。
1、,内容纲要,BI的相关背景 数据挖掘的基础知识 数据挖掘过程 常用数据挖掘方法 常用数据挖掘工具,1,BI的相关背景,BI(Business Intelligence,商业智能)是目前全球IT市场中非常热门的一个话题;其关键推进因素是ERP等系统的相对完善后,形成了海量数据,如何发挥这些数据的价值其实就是BI所需要解决的问题;BI是 数据-信息-知识 的一个逐步转化过程;BI系统主要由 数据仓库DW(Data Warehouse),联机分析处理OLAP(Online Analytical Processing),数据挖掘-DM(Data Mining)三大部分组成;,2,BI的相关背景,BI系
2、统结构,3,内容纲要,BI的相关背景 数据挖掘的基础知识 数据挖掘过程 常用数据挖掘方法 常用数据挖掘工具,4,典型的业务问题,如何优化下一阶段的营销活动?,高价值客户中,谁可能流失?,谁贡献的利润最多?谁花费的成本最高?,客户都有什么样的消费特点?,5,数据挖掘都可以应用到何处?,6,何谓数据挖掘?,数据,信息,决策,数据挖掘是一个从海量数据中抽取前所未知的,可理解的,可操作信息的过程。,7,数据库与数据挖掘发展历程,8,数据挖掘是一门交叉学科,数据挖掘,数据库技术,统计学,其他学科,信息科学,机器学习,可视化技术,9,内容纲要,BI的相关背景 数据挖掘的基础知识 数据挖掘过程 常用数据挖掘
3、方法 常用数据挖掘工具,10,数据挖掘的过程,11,商业理解,定义商业目标定义数据挖掘目标,12,数据理解,需要的数据可以获得的数据对可获得的数据进行观察、分析用直方图显示输入数据分布聚类以发现孤立点在保持数据特征的基础上抽样过滤不想要的数据值映射,13,数据准备,一定要保证数据质量!,14,建立模型,确定抽样规则选择合适的算法调整算法的参数,15,模型评估,使用一组新数据评估构建好的模型,16,模型发布,制作成自动化处理软件包,上线使用。,17,数据挖掘过程中工作量比例,18,数据挖掘的过程,数据仓库,选择的数据,选择,转换,挖掘,转换后的数据,可理解的信息,抽取的信息,19,内容纲要,BI
4、的相关背景 数据挖掘的基础知识 数据挖掘过程 常用数据挖掘方法 常用数据挖掘工具,20,业务问题与数据挖掘算法间关系,神经网络 Neural Networks,聚类分析 Clustering,OpenAccnt,Add NewProduct,DecreaseUsage,?,Time,序列分析 Sequence Analysis,决策树 Decision Trees,倾向性分析信用特性分析,客户保留 客户生命周期管理 目标市场 价格弹性分析,客户细分 市场细分,倾向性分析 客户保留 目标市场 欺诈检测,关联分析 Association,市场组合分析 套装产品分析 目录设计 交叉销售,21,数据挖
5、掘的类型,预测型数据挖掘:使用已知知识构建模型,用以预测未来。描述型数据挖掘:寻找数据中的模式,使用找到的模式指导决策。,22,数据挖掘技术,(预测型/描述型)分类结果将落入哪个类别中?影响预测结果的主要因素是什么?值预测这一事件发生的可能性是多大?,23,数据挖掘技术,聚类存在哪些逻辑上的群集?关联规则事件之间存在怎样的联系?序列模式这个事件之后会发生那些事件?相似时间序列这个结果是否与以前的一个模式相同?,24,三种主要的数据挖掘技术,分类(客户流失),聚类(客户细分),关联规则(购物篮分析),25,分类,分类算法,采取行动!,26,决策树分类,训练:基于历史数据,创建决策树,27,决策树
6、分类,应用:基于历史数据,创建决策树,28,决策树分类的参数,一般数据挖掘工具在应用决策树分类算法时,可调整的参数:输入变量误差矩阵(代价矩阵)最大树深度节点最大纯度节点最少记录数,29,神经网络分类,输入层(i)隐藏层(j)输出层(k)x1 x2 xi Wij Wjk O j O k 前馈是指信号先前传播,输入-隐层-输出,结点(神经元),30,BP算法原理,网络结构的确定输入层结构由输入变量(属性)来定。每个属性为一个输入结点;输出层结构由输出结果来定。有几个输出值,就有几个输出结点;隐藏层 层数和结点数点的确定:主要靠经验。初始权值的确定:取决于对问题的了解和先验知识,那部分作用强,权值
7、就设得大些;靠经验。训练过程:一个神经元连接权重调整的过程。前向传播阶段输入层隐层输出层反向传播阶段计算输出的结果和目标结果的差距经输出层隐层输入层 反推神经元连接的权重调整对每个输入样本重复上述步骤,直到网络收敛为止,31,聚类,32,聚类算法,演示图分群神经网络(Kohonen),33,关联规则,34,关联规则,对于规则 A=B,A=B的支持度同时包含A、B的事务数总事务数 A=B的置信度(A交B)的支持度A的支持度LIFT(A=B的置信度)B的支持度,35,序列模式,100购买C产品的顾客在未来的时间里都购买了X产品。,36,相似序列,37,相似序列,38,RBF预测,RBF(Radia
8、l Basis Function)神经网络预测结果是个连续型变量,39,RBF预测,根据输出空间,将输入空间划分为区域,计算每个区域的区域中心,40,RBF预测,计算每个中心的权重,Y=f(x1,x2,x3),41,RBF预测,第一步:训练第二步:应用,42,内容纲要,BI的相关背景 数据挖掘的基础知识 数据挖掘过程 常用数据挖掘方法 常用数据挖掘工具,43,常用数据挖掘工具,Intelligent Miner(IBM);Clementine(SPSS);SAS Enterprise Miner(SAS);,44,新业务营销,留住老客户(提升老客户活跃度),识别与培养影响力高端,根据客户本业务
9、行为特征及偏好开展针对性营销,改进客户体验,客户流失预警及客户挽留,靠影响力高端带动,数据,数据,数据,发展新客户,发现潜在客户,进行交叉销售,靠影响力高端带动,数据,数据,识别影响力高端,根据影响力高端的需求特点设计产品,制定能激发影响力高端积极进行横向传播的营销策略,数据,数据,数据,营销方式,营销方式,注释:,电信新业务营销思路,项目整体操作框架,基于用户彩铃生命周期细分的算法描述,彩铃潜在用户决策树模型,彩铃目标用户(N=20228;L=13.2%),改造平台,从用户出发重新规划彩铃铃音内容属性,分析个人铃音库中铃音内容属性特点,抽提出用户铃音内容偏好,依据用户铃音内容偏好进行针对性营
10、销,对应归类打标,数据汇总,营销效果回馈,贴铃音内容偏好标签,铃音内容偏好属性标签构建思路框架,彩铃铃音内容属性标签应用示例,铃音标签,秋天不回来,黄金甲,Girl of your dreams(开篇版),用户铃音内容偏好抽提示例,用户B:铃音库中铃音:,用户A的铃音内容属性偏好特征:无跟随倾向;时尚族;喜欢主流男歌手,但无明显的歌手倾向;偏好国语,大众流行POP;影视插曲;情感属性:伤感;休闲圈;不具标新立异特质;,用户B的铃音内容属性偏好特征:无跟随倾向;时尚族;喜欢新歌;无明显的歌手倾向,喜欢女歌手;偏好英文歌曲,大众流行POP;专辑CD;情感属性:欢乐激情;休闲圈;不具标新立异特质;,提取用户彩铃内容属性偏好特征,