数据挖掘应用简介.ppt

上传人:小飞机 文档编号:6166850 上传时间:2023-10-01 格式:PPT 页数:75 大小:2.22MB
返回 下载 相关 举报
数据挖掘应用简介.ppt_第1页
第1页 / 共75页
数据挖掘应用简介.ppt_第2页
第2页 / 共75页
数据挖掘应用简介.ppt_第3页
第3页 / 共75页
数据挖掘应用简介.ppt_第4页
第4页 / 共75页
数据挖掘应用简介.ppt_第5页
第5页 / 共75页
点击查看更多>>
资源描述

《数据挖掘应用简介.ppt》由会员分享,可在线阅读,更多相关《数据挖掘应用简介.ppt(75页珍藏版)》请在三一办公上搜索。

1、数据挖掘应用简介,引言,分析报告给你后见之明(hindsight);统计分析给你先机(foresight);数据挖掘给你洞察力(insight)。Berry&Linoff(1997),目录,数据挖掘基本概念客户分群流失预测,数据挖掘的定义,数据挖掘的历史虽然较短,但从20世纪90年代以来,它的发展速度很快,加之它是多学科综合的产物,目前还没有一个完整的定义,人们提出了多种数据挖掘的定义,例如:SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程

2、”。Hand et al(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。,(1)分类:按照分析对象的属性、特征,建立不同的组类来描述事物。(2)聚类:识别出分析对内在的规则,按照这些规则把对象分成若干类。(3)关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的这样一种联系。(4)预测:把握分析对象发展的规律,对未来的趋势做出预见。(5)偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。,数据挖掘主要功能,数据挖掘的方法,(1)传统统计方法:抽样技术:我们面对的是大量的数据,对所有的数据进行分析是不可能的也是没有必要的,就要在理论的指导下进行

3、合理的抽样。多元统计分析:因子分析,聚类分析等。统计预测方法,如回归分析,时间序列分析等。(2)可视化技术:用图表等方式把数据特征用直观地表述出来,如直方图等,这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。(3)决策树:利用一系列规则划分,建立树状图,可用于分类和预测。常用的算法有CART、CHAID、ID3、C4.5、C5.0等。,数据挖掘的方法,(4)神经网络:模拟人的神经元功能,经过输入层,隐藏层,输出层等,对数据进行调整,计算,最后得到结果,用于分类和回归。(5)遗传算法:基于自然进化理论,模拟基因联合、突变、选择等过程的一种优化技术。(6)关联规则挖掘算

4、法:关联规则是描述数据之间存在关系的规则,形式为“A1A2AnB1B2Bn”。一般分为两个步骤:求出大数据项集。用大数据项集产生关联规则。,数据挖掘标准流程 CRISP-DM,CRISPDM是CRoss-Industry Standard ProcessData Mining的缩写,CRISPDM,商业理解 数据理解 数据准备 建立模型 模型评估 模型发布,商业理解(Business Understanding),找问题-确定商业目标 对现有资源的评估 确定问题是否能够通过数据挖掘来解决 确定数据挖掘的目标 制定数据挖掘计划,数据理解(Data Understanding),确定数据挖掘所需要

5、的数据 对数据进行描述 数据的初步探索 检查数据的质量,数据准备(Data Preparation),选择数据 清理数据 对数据进行重建 调整数据格式使之适合建模,建立模型(Modeling),对各个模型进行评价 选择数据挖掘模型 建立模型,模型评估(Evaluation),评估数据挖掘的结果 对整个数据挖掘过程的前面步骤进行评估 确定下一步怎么办?是发布模型?还是对数据挖掘过程进行进一步的调整,产生新的模型,模型发布(Deployment),把数据挖掘模型的结果送到相应的管理人员手中 对模型进行日常的监测和维护 定期更新数据挖掘模型,数据挖掘应用领域,电信:流失、聚类银行:聚类(细分),交叉

6、销售百货公司/超市:购物篮分析(关联规则)保险:细分,交叉销售,流失(原因分析)信用卡:欺诈探测,细分电子商务:网站日志分析税务部门:偷漏税行为探测警察机关:犯罪行为分析医学:医疗保健,为何要数据挖掘?,数据+工具+方法+目标=知识,数据+工具+方法=信息,目录,数据挖掘基本概念客户分群流失预测,引言,我不知道成功的关键是什么,但是我 知道失败的关键是什么?那就是你试图取 悦于每一个人!Bill Cosby,客户分群,客户分群,物以类聚,人以群分,客户分群-商业理解,根据目前业务的需要,首先对公众客户进行价值分析。根据各公众客户的价值,结合客户的使用行为,对客户进行分群,便于市场人员针对不同客

7、户群体制定合适的市场策略,取得提升、保留目标客户群的实质性效果。确定工作计划,客户价值 账单收入结算费用成本 由于目前客户成本无法计算,所以暂时考虑账单收入和结算费用。帐单收入 普通电话和小灵通后付费帐单收入 小灵通预付费帐单收入 宽带收入 卡通话费用折算(目前出帐帐单不含此项,需从卡话单中统计)结算费用 一般通话结算费用 智能网结算费用,客户分群-商业理解,客户分群-商业理解,注:以上杭州数据截止。,基准客户群公众客户:当前在网:入网超过3个月:拥有在网非公免甲种用户入网满三个月 普通电话、小灵通、普通电话和小灵通14部,客户分群-数据理解,理解数据仓库的基本数据信息:公众客户基本信息公众用

8、户基本信息公众用户(固话)帐单信息公众宽带用户帐单信息公众用户本地通话信息公众用户长途通话信息公众用户卡通话信息公众用户结算信息,客户分群-数据准备,变量设计 数据探索变量选择,变量设计,变量设计 A.客户基本信息 B.客户价值信息 C.客户行为信息,价值、行为变量,客户分群-数据准备,变量设计 数据探索变量选择,数据探索,主要目标 通过图形化呈现工具和其他的统计方法对数据质量、数据分布有较全面的理解,最终选择建立模型的数据记录和数据属性奠定基础。主要手段值分析统计分析柱状图分析频次分析其他,值分析,统计分析,柱状图分析,用户的收入主要集中在20至80元,占80%以上用户数,其他,杭州西湖区某

9、客户,3部固定电话,近三月平均用卡通话次数1926次!,高帐单收入用户对电信的贡献不一定高,杭州桐庐县小灵通用户C当月帐单金额493.66元发话网通通话25次,受话网通通话5次,结算费用473.04元,损失473.04元!建德市新安江镇普通用户D当月帐单金额318.00元拨打168结算费用-255.00元,损失255.00元!,注:以上杭州数据帐务月为2004年10月,低帐单收入用户对电信的贡献不一定低,目前,电信衡量用户贡献度的主要指标是帐单收入,即用户以发话方或发话费用给电信带来的收入杭州西湖区普通电话用户 A当月帐单金额16.40元使用96201卡1143次,通话费用684.42元,按6

10、折算,贡献410.65元!建德市新安江镇小灵通用户B当月帐单金额25.05元受话网通通话60次,结算费用334.53元,贡献334.53元!,注:以上杭州数据帐务月为2004年10月,客户分群-数据准备,变量设计 数据探索变量选择,变量选择,应结合业务意义、分群目的和数据质量来选择参与分群的变量:从业务的角度看,无分析意义的变量不建议参与分群;取值个数较少、离散的变量及数据质量较差的变量不建议参与分群;互相之间可以派生(相关性太强)的变量不建议全部参与分群;总量和分量不建议一起参与分群。,客户分群-建立模型,建模工具:TERADATA WAREHOUSE MINER(Clustering)算法

11、:a.K-Means b.高斯混合模型分群个数(7 加减 2),注:利用K均值算法需要先将数据进行标准化处理(Z_Score),分群结果特征刻画分群模型调优,客户分群-模型评估,注:建立模型和模型评估不是孤立的两个阶段,无法将两个阶段区隔的很清楚,特征刻画,利用TWM聚类结果cluster similarity进行特征刻画,特征刻画,利用透视图进行特征刻画,模型调优,客户分群是一个螺旋上升,不断优化的过程,判断分群结果是否理想:群内特征是否相似群间特征差异是否明显分群结果是否具有业务指导意义 分群调优可通过调整分群个数及调整分群变量输入来实现,客户分群-模型发布,确定客户分群模型的结果,送到相

12、应的管理人员手中,对客户分群模型结果进行应用。对客户分群模型进行日常的监测和维护 定期更新客户分群模型,附:,基于(MR)市场营销再造的思想,在完成客户行为分群和价值分群的基础上,生成VB矩阵,山坡图、战略分群,VB矩阵,将VB分群结果交叉,山坡图,战略分群,SS1 低值休眠型SS2 本地温饱型SS3 短途离家型SS4 本地预警型SS5 本地活跃精明型SS6 长途中值型SS7 传统长途成长型SS8 IP高值敏感型SS9 灵通伴我型,特征刻画后命名,战略分群特征刻画,战略分群总体特征描述 SS1,低值休眠型,人数21103,占总人数25.20%。总费用占各客户群总收入的9.28%,ARPU值最低

13、,为19.56元。区间(0.22元)和长途费用(传统国内长途0.66元、传统国际长途0.01元、IP国内长途0.10元)几乎没有,以区内费为主(3.32元,占总收入16.74%),但区内费远低于平均值(12.23元);月租费占比最高,为70.8%。几乎没用优惠!总费用有微弱上升趋势。缴费周期最长(平均16天/月)。平均欠费金额次最低:1.16元。,SS1,客户分群总体特征描述 SS8,高值敏感型,人数3193,占总人数3.81%。收入占比7.51%,ARPU值次最高为104.66元,不含小灵通达98.62元。区内费用(27.73元)次最高。区间费(4.68元)用较高。区内区间费用下降趋势明显。

14、总长途费用最高,IP长途费用最高(35.54元);国际费用最高(5.76元),但是以IP为主,且IP国际最高(4.73元,平均值0.55元);有一定的传统长途(8.91元)。所有的长途费用趋势下降。有一定17908费用。201费用最高,略高于17908费用,主要为长途201费用。201卡和17908费用均有下降趋势。电信IP接入费最高且远高于他网IP。拨打异商IP电话较多;拨打本地行动较多。简单地说,用17909打长途,电信IP一族!平均每个用户半年拨打35个不同的长途号码。拨打不同长途电话最多。享受的总优惠最多。总费用下降趋势最明显。平均欠费金额接近最高:6.34元。,SS8,战略分群分布,

15、目录,数据挖掘基本概念客户分群流失预测,引言,世界是物质的,物质是运动的,运动是 有规律的,规律是可以认识和利用的 马克思,流失预测-商业理解,对用户话音收入进行监控,尽早感知用户流失的可能性,在流失前或流失行为的初期阶段就能够有针对性的开展工作,避免进一步的损失;根据目前业务的需要,首先对公众用户进行分析。确定工作计划,话音收入 包括除月租、来显费、信息费等增值业务费以外所有语音通信收入,含上网通信费。基准用户群公众固话用户(普通电话和小灵通,由于小灵通预付费暂无账单,目前主要针对普通电话);当前在网用户;非公免用户;入网三个月以上用户;基准客户群基准用户所属的所有客户;拥有4部以下固话(普

16、通电话、小灵通);潜在话音收入流失客户 客户所属的用户中,至少有一个潜在的话音收入流失用户;话音收入流失定义月话音收入与前三个月平均话音收入相比下降30%以上;,流失预测-商业理解,流失预测-数据理解,理解数据仓库的基本数据信息:公众客户基本信息公众用户基本信息公众用户(固话)帐单信息公众用户本地通话信息公众用户长途通话信息,流失预测-数据准备,变量设计 数据探索变量选择,变量设计,变量设计 A.客户(用户)基本信息 B.用户价值信息 C.用户行为信息,价值、行为变量,用户,竞争行为(月平均呼叫移动次数、非电信IP不同运营商个数,呼叫行为(传统长途月平均呼叫次数),缴/欠费信息(按时缴费次数、

17、平均每次欠费时长),客户接触记录(10000号呼叫次数、业务受理比率),产品拥有(是否拥有IP语音服务、拥有号线个数),在网时长(成为电信用户时长),收入(月平均区内费趋势、IP费用比例,价值,行为,价值,行为,价值,行为,行为,流失预测-数据准备,变量设计 数据探索变量选择,数据探索,主要目标 通过图形化呈现工具和其他的统计方法对数据质量、数据分布有较全面的理解,最终选择建立模型的数据记录和数据属性奠定基础。主要手段值分析统计分析柱状图分析频次分析其他,27%用户8月份话音收入比7月份下降30%以上,注:以上杭州数据截止2004.8.21.,高收入段的用户流失率也高,一旦流失,少有回头,公众

18、普通电话用户2004年3月到8月在网;三月的话音收入20,300(元)共:400533用户,M3,M4,M5,M6,M7,M8,38%,69%,79%,83%,89%,M3,三月份为基准月,共400533普通电话用户,占24%,话音收入占65%;四月份话音收入比三月份下降30%者(M4)占目标群的38%;M4中,69%在五月份话音收入继续保持比三月份下降30%(M5);这样的比例,在6,7,8分别达到,79%,83%,89%;,启示:一旦下降,后续月份很少反弹;如果本月比上月相比下降了30%以上,则应该立即有所行动;如果需要对将要流失的用户实施预见性的市场保育工作,那么关键是要预测下月将要流失

19、的用户;,话音收入下降要警惕,本月话音收入比近三个月话音收入下降20%以上的用户,流失率开始明显高于平均流失率;,传统长话收入与流失,近三个月传统长话收入较高的用户,流失率相对较高;在近三个月传统长话收入大于12元的用户群中,流失率比平均流失率高10个百分点;,入网时长与流失,入网时间小于三年的用户,流失率略高于平均流失率,而且入网时间越短流失率越高;,流失预测-数据准备,变量设计 数据探索变量选择,变量选择,应结合数据探索(变量分析)和数据质量来选择参与预测建模的变量:变量分析时各分段组内流失率与平均流失率相近的变量不参与建模;相关性太强(各分段组内流失率相近)的变量不建议参与预测建模;,流

20、失预测-建立模型,注:采样比例不一定都是50%,视数据量而定,建模工具TERADATA WAREHOUSE MINER(DECISION TREE)采样训练集:50%测试集:50%,流失预测-模型评估,使用模型对八月的用户数据进行评分,得到每个用户在九月的流失倾向分值;使用模型对九月的用户数据进行评分,得到每个用户在十月的流失倾向分值;使用用户在九月、十月实际的流失情况,来评估模型预测结果在未来一个月、两个月的命中率;主要的关注点:模型评分分值较高的若干用户中,实际的命中率;用户数的一般取法:占总用户群10%的用户;根据市场需要,关注评分靠前的1000、5000、10000、20000或50000个用户;,验证数据:9月,流失预测-模型发布,确定流失预测模型的结果,送到相应的管理人员手中,对流失预测模型结果进行应用。对流失预测模型进行日常的监测和维护 定期更新流失预测模型,?,?,!,谢谢,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号