案例2电信客户流失(程建华).ppt

资源描述

《案例2电信客户流失(程建华).ppt》由会员分享，可在线阅读，更多相关《案例2电信客户流失(程建华).ppt（20页珍藏版）》请在三一办公上搜索。

1、Statistics Department of Economic School of Anhui University,Jianhua Cheng2023年5月27日Email:,A Series Course of Data Mining,案例2电信客户流失分析,电信行业数据挖掘客户流失研究之商业理解,移动通信业是一个竞争异常激烈的行业，对于移动通信运营商来说，如何对其客户进行有效的管理，尽可能的减少客户的流失和跳网是一个紧迫的问题。在这里我们将介绍数据挖掘在移动通信业关于客户流失研究中的应用。数据挖掘技术将提供功能强大的模型，可以回答“哪些客户最可能流失？”和“为什么这些客户会流失？”等

2、问题。,电信行业数据挖掘客户流失研究之商业理解,什么是流失，流失如何定义连续欠费不交？号码长期不用？二分标记变量？流失和哪些因素相关顾客年龄？性别？收入？行业？话费水平？话务质量？确定数据挖掘目标（1）对客户进行聚类分析，寻找那些流失量比较大的客户群（2）建立规则，描述那些易于流失的客户群的特征（3）建立打分模型，对客户流失可能性（概率）进行评价,顾客信息资料(共31769条记录，10个变量),电信行业数据挖掘流失问题研究之数据理解,CDR数据资料（190，614条记录，10个变量）,电信行业数据挖掘流失问题研究之数据理解,资费数据资料（共5条记录，9个变量）,电信行业数据挖掘流失问题研究

3、之数据理解,电信行业数据挖掘流失问题研究之数据准备,把CDR月度数据汇总成6个月的总体数据根据CDR数据生成各种不同的平均数据和组合数据归并客户信息数据、CDR数据与话费数据对客户现在付费类型的合理性进行简单分析,电信行业数据挖掘流失问题研究之建模和评估,Kohonen聚类 Kmeans聚类 C5.0建立规则 C&RT决策树 Logistic回归模型神经网络模型,对客户进行聚类分析，并比较不同客户群流失可能性,建立规则，描述那些易于流失的客户群的特征建立打分模型，对客户流失可能性（概率）进行评价,结论决策：流失概率高和低的都不管，关注中间层，范围多大？,Modeler 14.2,文件：

4、数据理解_观察各种因素和流失的关系如何.str,文件：数据理解_各种费用比例和流失的关系.str,文件：建立模型_研究不同客户群流失情况.str,6.案例分析,文件：建立模型和模型评估_建立对用户流失可能性进行打分的模型并评估.str,建立模型：（1）利用数据训练集训练模型，看模型是否合适。,6.案例分析,文件：建立模型和模型评估_建立对用户流失可能性进行打分的模型并评估.str,建立模型（2）利用数据检验集对已经建立的模型进行查看，看预估数据与实际数据是否吻合，出错比例大概多少。,理解数据挖掘应用/建模图,6.案例分析,电信行业数据挖掘流失问题研究之模型发布,对每个特定客户的流失可能性进行打

5、分评估写回数据库,您需要将您对数据挖掘结果是否达到业务成功标准的评估记录在案。在报告中考虑以下问题：您的结果是否明确声明并且采用可以轻松展示的格式?是否存在应该突出强调的特别故事或独特的发现问题？您是否能够按照模型和发现的问题对于业务目标的适用顺序对他们进行排序？总的来说，这些结果能在多大程度上满足您组织的业务目标？您的结果还引发了哪些其他问题？您将如何使用商业术语表述这些问题？评估完结果后，编辑汇总一个已批准的模型列表以包含在最终报告中。此列表应该包含同时满足您组织的数据挖掘目标以及业务目标的那些模型。,模型评估,如果要评估模型的准确度，则需要对一些记录进行评分，并将模型预测的响应与实际结

6、果进行比较。接下来对用于评估该模型的相同记录进行评分，以将观察到的响应与预测响应进行比较。表在名为$R-Credit rating 的字段中显示预测分数，该字段由模型创建。我们可以将这些值与包含实际响应的原始信用评价字段进行比较。按照惯例，在评分过程中生成的字段的名称基于目标字段，但是要加上标准前缀，例如$R-表示预测值，$RC-表示置信度值。不同的模型类型使用不同的前缀集。置信度值是模型自己的评估，尺度从 0.0 到 1.0，表示每个预测值的精确程度。与预期的一样，预测值与大多数（并非全部）记录的实际响应相匹配。原因是每个终端节点均有混合响应。预期值与最常见的响应相匹配，但对于该节点中的其

7、他响应，该预期值是错误的。（记住，16%的少部分低收入客户没有拖欠。）若要避免出现此情况，应继续将树分割为更小的分支，直到每个节点都是不含混合响应的 100%纯节点为止即全部为优良或不良。但是，这样的模型可能会非常复杂，并且不易推广到其他数据集。,模型评估,增益图红线为“随机线”，即随机抽取总体数据的预测结果，是参照基线，$Best-流失评分线是“理想线”，即模型准确预测应得到的结果，中间三条即三个模型的实际预测的累计增益结果。模型曲线越靠近理想线，与随机线包围面积越大，模型的预测效果越好，上图三个模型均很靠近理想线。横轴表示总体数据的百分比，图中可以看出，利用总体约45%的数据已经可以通过这三个模型达到接近理想线的预测结果。,模型评估,提升图提升图与累计增益图解释类似，均是描述模型预测的准确性，它衡量与不利用模型（即图中红色的基线）相比，模型的预测能力“变好”了多少。由图可以看出，各模型的峰值也是在总体约45%的位置，超过45%，模型的提升值趋于下滑，即利用总体45%的数据就可以使三个模型的预测效果靠近理想线，说明三个模型的预测结果均是可靠的。增益图与提升图都显示C5.0决策树模型预测流失评分离基线最远，在三个模型中应该优先考虑C5.0决策树模型。,模型评估,谢谢！,

展开阅读全文