《SAS方法论与实践.ppt》由会员分享,可在线阅读,更多相关《SAS方法论与实践.ppt(73页珍藏版)》请在三一办公上搜索。
1、东 方 国 信,SAS-东方国信SAS-东方国信SAS-东方国信,北京东方国信电子有限公司,SAS在联通经营分析中,的方法论与实践,背景,为什么要引入专业的数据分析工具?经营分析的定位经营分析的发展现状专业的数据分析工具的定位专业的数据分析工具能为我们带来什么如何才能将专业的数据分析工具融合到系统中?现有系统的体系结构是什么?专业的数据分析工具的接口是什么?专业的数据分析工具的特性如何有效的应用专业的数据分析工具?专业的数据分析工具有适用范围,现有专业的数据分析工具介绍,SASSPSS国内自主研发的算法国外免费的工具,2004年5月,国际专业新闻和商情杂志KDnuggets针对数据挖掘软件应用
2、情况面向用户开展了调查,此次调查覆盖了各行业用户目前使用的24种数据挖掘软件,东方国信的SAS实践,2000年开始成立专门的SAS专家组2001年在中国联通吉林省分公司应用SAS软件建立了客户流失分析模型建立了客户欺诈分析模型建立了客户套餐分析模型建立了企业KPI分析模型,SAS应用的方法论,SAS产品方法论的介绍,SAS的产品,软件产品SAS/BASESAS/GRAPHSAS/STATSAS/INSIGHTSAS/Enterprise MinerSAS/ETSSAS/Enterprise GuiderSAS/QC应用服务客户关系管理财务管理最佳分布绩效管理生产和服务质量风险管理供应链智能We
3、b分析服务Web 分析解决方案,SAS的端到端的解决方案,SAS解决方案的过程,商业目标,分析应用,减少股份交易,提升客户目标,增加交叉销售和上升销售的机会,最小化付款风险,Delinquency Payment,KPI 的追踪和监测,有效的行使KPIs 管理,网络转换数据,记帐数据,呼叫详细数据,外部数据,数据管理,数据库/数据集合,财务,付款风险,表现管理,商业活动和汇报,t商业活动管理,报告,数据资源,客户收益,税收和成本,客户持久性,股份交易倾向,分割图和结构图,现象分析,交叉和上升销售,交叉/上升销售分析,巩固有收益的客户的基础,方法论,目标定义目标策略选择建立模型的方法实施模型的具
4、体的实施方案,数据清洗 变量规约与转换 模型处理、验证、实施,基础知识,模型开发的各步骤,案例研究,建立有效数据模型的步骤 Marketing risk&CRM用于Data Mining的多种类型和来源的数据,目标,设立目标,定位模型,营销定位,Target model:帮助定位最佳客户和潜在客户,目标,定义目标,描述模型(descriptive model),预测模型(predictive model),吸引、保留客户,商业目标 分析术语特征分析 划分 根据利润和市场潜力划分客户,share of wallet,风险和存 款余额响应 目标是预测谁会对某种产品的宣传做出响应,监视响应途径 管理
5、重复响应,实施,分析变量,数据建模,处理和评价模型,评价模型的一般思路具体的案例分析,评价模型的一般思路,数据划分,逻辑回归建模,模型评估,建模数据集,验证数据集,逐步法,从模型中选择变量,每当一个变量进入模型,就会重新计算不在模型中的剩余变量得单变量卡方,同时计算模型中的预测因子的多变量卡方或递增预测能力。如果某个变量进入模型中后,以后的变量再进入模型后,模型效果都不再显著,则删除该变量,此过程进行直至所有变量。,向后法,首先考虑模型中的所有变量,考虑某个变量与其他变量的关联时,每个变量都要计算多变量卡方和预测能力,然后依次删除预测能力低的变量。删除后上述过程继续进行。直至找出所有的变量都具
6、有多变量的显著性。,评分,在候选变量集中使用最高相似度进行评分统计,并用所有变量的可能子集构造模型。实际上只是萎每个模型列出最佳变量以及全局卡方。,多重共线形讨论,含义:存在高度关联的预测因子问题:模型系数估计是否具有的可靠性和可 解释性分析:1.增加了高共性变量系数样本分布的标 准误差 2.但并没有违背平凡最小平方回归的 假设 3.两个高度关联的因子对应的所有变量并非 都完全一样,删除其中一个反而会造成信 息丢失结论:高关联变量不仅没有坏处,而且如果删除反 而会造成预测能力的下降!,实例分析,现有:数据集(一个)变量和权重(已定义)操作:建模,分析方法:单模型和双模型,单模型步骤,创建模型,
7、1.选用0.3或以 下级变量 2.使用建模语句3.选用具体方法,方法观察,逐步法 向后法 打 分,结果查看,模型评估,单模型与双模型比较,方法:使用贝叶斯定理的简化形式得出模型评分函数,评分函数:P(R)=相应概率(方法2中的模型1)P(A|R)=给定响应的激活概率(方法2中的模型2)P(AR)=响应并激活的概率 P(AR)=P(R)*P(A|R),第六章 验证模型,1.验证模型基本工具:收益表与收益图2.重采样法3.度量市场关键驱动的影响分析,收益表,收益图,评分备用数据集,读出数据,变量转换,评分,结果处理,分级排序,图表展示 表格展示,重采样,目的:提供一种经验性的估计(非参数估计)方法
8、:1.通过计算基于反复采样的模型系数或 估计来避免过度适应 2.通过使用反复采样验证模型的结果 来检测过度适应。类型:1.折 叠 2.自 引 导,折 叠,工作原理:基于“只剩一个”原则的重新采样技术具体实现:设N为数据集里的观察样本总数,折 叠 技术在N-1个不同的采样上计算估 计,每个采样都有N-1个观察样本。,案例模型,选取样本数据集,基于50的随机样本,执行折叠方法,1.用逻辑回归 创建输出文件2.启动一个宏,该宏创建100个折叠样本3.循环执行,创建100个十分位值,得出每个具体增幅,创建受益表,1.输出文件2.合并文件3.计算激活预测概 率,实际激活率,增幅平均值,标准偏差值,自 引
9、 导,自引导使用数据的全部采样,含义即,从原始样本里得到N个大小为N的随即样本,自引导样本通过替换得到。计算自引导评估公式:BSest=2*Sampleest-mean(BSi)其中BSi是样本中的自引导评估集。计算自引导置信区间公式:UCI=BSest+Z0.025*SEBSi LCI=BSest-Z0.025*SEBSi,关键变量的十分位数分析,在关键变量上创建一个收益表,用于显示关键变量在十分位数上的变化趋势。具体方法是用SAS代码实现。,了解你的客户:特征化和划分,本章内容提要:1 为何了解客户很重要2 公司客户的特征化和渗透分析RFM分析渗透分析3 为公司开发客户价值矩阵4 执行聚类
10、分析以发现客户划分,了解你的客户:特征化和划分,客户特征化和划分知道了带来最大利润客户的特征和行为=可以直接将其应用于寻找潜在客户之中目标:定位是什么促使产生高利润客户,为何了解客户很重要,为什么需要了解客户?很多公司推送产品和服务时是盲目的了解客户是有利润营销的重要的第一步特征化用数据来描述或给出客户或潜在客户特征的活动叫做特征化。特征化过程可以在整个数据库上进行,也可以在数据的不同部分上进行。这些不同的部分也称为划分。他们通常互不包含,即没有一个客户属于多个划分。,为何了解客户很重要,划分把数据库分为互不相交的部分或分区的活动称为划分。基本的划分方法市场驱动方法:预先选择特征变量数据驱动方
11、法:客户聚类在不是很了解数据时比较有价值,为何了解客户很重要,特征化和划分的类型1.RFM表示最近值(Recency)、频度值(Frequency)和币值(Monetary)利用客户的购买行为进行客户划分,主要用于提高针对当前客户的营销效率指标最近值:客户最后一次购买行为后的月份数频度值:购买的次数总和币值:货币价值总和RFM特征可单独使用也可组合使用,为何了解客户很重要,特征化和划分的类型2.人口统计数据大部分居住在同一地区的人具有相似的行为模式在个人的层次上收集数据,加上人们所在地理位置的信息。在年龄、性别、收入、婚姻状况等数据上进行的客户划分对产品开发、设计和市场定位很有帮助,为何了解客
12、户很重要,特征化和划分的类型3.生活阶段满足需求的模式都是随着时间不停的变化,这些模式聚集了不同的群体,群体可用人口统计数据定义年龄、婚姻状况、是否有子女生活阶段的内容青年单身、配偶;中年单身、配偶、家庭;老年单身、配偶。然后用经济、行为和信息等数据加强。就可得到很好的客户划分理解这种客户划分为开发相关产品和调整市场策略提供了机会,为何了解客户很重要,市场划分的十个要素(引自Ron Mazursky的论述)定义业务目标构建市场划分团队检查和评估数据需求选择恰当的分析层次在全体人群中选定用于分析的样本从指定的数据源为选定的样本抽取数据清理数据选择恰当的划分方法,为何了解客户很重要,市场划分的十个
13、要素(引自Ron Mazursky的论述)统计划分方法在客户划分数目太多或对目标群体不是很了解时采用。利用各种数理统计技术(例如:聚类分析)决定客户划分(一般不超过15个)检验划分的效果定性和定量检验,内容见(P.163)客户划分的测试规则与业务目标相关可理解的和容易特征化的基数足够大容易开发独特的宣传活动应该让业务目标贯穿开发、测试、分析全过程,目录服务公司客户的特征化和渗透分析,样例公司Southern Area Merchants(SAM),一家专门从事礼品、家居和花园工具的目录服务公司10年历史,35 610个客户最近响应率在不断下降希望找到影响客户响应的关键因素扩展客户群体寻找从外部
14、客户列表中定位好的潜在客户的方法,RFM分析,定义数据库变量lstpurch:自最后一次购买的月数,最近值Munpurch:最近36个月内的购买次数,频度值Totpurch:最近36个月内的消费总量,币值分析过程得到客户的通用模式分布(fig.8-1)查看最近一次目录邮寄的响应率(fig.8-2,fig.8-3)分别确定最近值、频度值、币值与响应率间的关系,渗透分析,渗透分析有效的客户分布与总体人口间的比较方法方法计算基本人口统计变量的频度分布分别计算客户的(fig.8-4)和总体人口(fig.8-5)的分布对年龄的市场比较(fig.8-6)综合存放两个分析信息(table 8-1)渗透指数=
15、客户百分比/市场百分比*100,为公司开发客户价值矩阵,客户价值分析目的:为了搞清客户与收益和风险的关系,以便按照客户的创利能力将客户划分,进而改进客户关系管理用Proc TABULATE生成客户价值矩阵,执行聚类分析以发现客户划分,聚类分析概念将数据分割成相似特性的群体,用频度寻找处于变量区间内的相似群体用欧式距离把几个特征上相似的观察样本值聚在一起,同时试图把不相似的观察样本分开带来了很多指导性解释的机会类似特征分析,理解划分能够能够改善客户定位并为市场人员创建相关宣传活动,小结,本章总结寻找和创建有价值客户的第一步都要判定是什么驱动了创利能力。这引导出更好的潜在客户获取和更成功的客户关系
16、管理。方法利用关于客户、产品和市场的知识,把客户分成不同的划分来解释那些利润驱动因素。使用数据驱动技术里寻找存在于客户或潜在客户群体中自然的聚类。该过程会带来收入和对客户的了解,这是保持竞争力的关键。,客户CRM分析模型,目标实现策略,客户CRM的目标及战略,CRM的目标减少后付费用户流失率增加(增值业务/增值服务)订购战略焦点客户的保持与保有提供目标和强制性的程序流程向客户群体销售增值服务的组合及提升销售ARPU&ATPU 的预演推出有效的市场活动,项目目标,业务标识合适的分群,以便实施客户保持的程序识别客户类型、需求、偏爱,来支撑客户的保持力、忠诚度及进行商业策划识别并确定交叉销售和上升的
17、销售的机会确定有效的增值服务的捆绑确定有针对性的保有报价及规划分析商业活动和规划的有效性预测ARPUATPU技术析取并构建数据集市执行分析和建模流失、分段、预测、产生关联、响应模型产生分析后的结果整合数据抽取、数据集市和分析过程到无缝流程。,用户基础,后付费用户基础规模后付费用户共计:683,008个人用户:90%集团用户:10%流失率流失率3.26%主动流失率(用户开始的)30%被动流失率(运营商开发始的)70%周期2004.022004.04:流失发生期2003.122004.01:过度期2003.012003.11:观察期排除被动流失者(包括欺诈行为统计)保留少于或等于6个月内部统计(职
18、员、经销商、合作伙伴),4.2003,12.2003,2.2004,4.2004,流失发生期,过度期,观察期(8个月),用户评估价值分段,基于后付费用户(集团用户和个人用户)价值分段层次 A ARPU 10k 层次 B ARPU:7k-10k 层次 C ARPU:4k-7k 层次 D ARPU:2.5k-4k 层次 E ARPU:1.6k-2.5k 层次 F ARPU:1.2k-1.6k 层次 G ARPU:800-1.2k 层次 H ARPU:500-800 层次 I ARPU:500,高价值段大于或等于 4,000,低价值段小于 4,000,流失倾向分组分布,Baseline Churn=
19、0.048,中高倾向(流失)占用户的30%,低倾向(流失)占用户的70%,流失趋势分组,流失基线=0.048,客户数量,客户价值分布,中高值用户占44%占收入73%,低值用户占56%占收入27%,客户数量,平均帐单金额(过去三个月,战略分段用户价值与流失倾向,9,943(段 4),73,072(段2),258,785(段 7),325,548(段 5),65,790(段 1),898(段 3),66,106(段 6),超高值用户低流失,高值用户低流失,中低等价用户 低流失,较低值用户 中等流失,流失基线=0.048,中等值用户 高流失,过去三个月平均的帐单金额,流失趋势,交叉销售、提升销售分析
20、预测模型市场购物篮及产品关联ARPU&ATPU的预测ARPU&ATPU的预测要素(因子)分析的建模回应分析现存的市场活动未来的市场活动,分段战略及市场活动,目标及方法哪些客户最愿意购买促销的产品?方法预测建模应该交叉销售或提升销售哪些产品或增值服务给每位客户?如何有效的捆绑套装产品及增值服务方法购物篮子、产品关联、购买顺序,交叉销售、提升销售,方法、步骤,选择一个需要促销的感兴趣的产品 构建一个挖掘集市,在这存有关于用户是否有此产品的信息通过数据挖掘算法构建一个规则、逻辑,应用,应用构建的知识/规则到当前的客户中,来预测谁是最可能购买附加产品的客户。,方法预测建模,哪些客户最愿意购买促销的产品
21、?,理解谁已购买谁尚未购买,M M+1 M+2 M+3,产品,产品,已有此产品的客户,没有此产品的客户,方法预测建模,交付:附有概率值的客户列表,方法、步骤,明白产品如何被客户购买的次序通过关联运算法则来确定产品的捆绑,应用,要明白哪项服务是客户拥有的并推荐的基于同类产品的最佳服务。,方法购物蓝、产品关联,应该交叉销售、提升销售哪些增值服务产品给每们客户?如何有效的捆绑增值服务产品?,方法购物蓝、产品关联,交付:捆绑产品列表及针对目标产品的客户列表,规则,交易额,信赖度,提升,套餐一,套餐二,套餐三,套餐四,套餐五,套餐六,套餐七,套餐八,套餐九,套餐十,套餐十一,套餐就是一组业务的组合,目标
22、预测未来ARPU&ATPU方法过去24月的ARPU&ATPU将被应用在时间序列模型里来预测未来12个月的情况。建模来测定影响ARPU&ATPU 结果的要素(下降或上升),ARPU&ATPU的预测,ARPU过去6个月个人用户的ARPU过去6个月个人用户的ARPU的平均值过去6个月个人用户的方差值,变量准备,客户基础,分段,时间序列分析,ARPU&ATPU 的未来结果,ATPU过去6个月个人用户的ATPU过去6个月个人用户ATPU的平均值过去6个月个人用户方差系数,相似ARPU趋向的分段的聚类,相似ATPU趋向的分段的聚类,使用过去24个月的 ARPU预测未来24个月的 ARPU,ARPU月平均A
23、RPU分段ARPU个人用户每月的ARPU,使用过去24个月的 ATPU预测未来24个月的 ATPU,月平均ATPU分段个人用户每月的ATPU,后付费预付费移动用户,ARPU&ATPU的预测,目标个体市场活动的效果分析市场活动回应的倾向哪些用户拥有较高回应倾向渠道偏爱哪种渠道吸引用户最多的回应?哪一多步序列产生最多的回应?在回收之前,潜伏期是什么?用户特征在每一个回应倾向片段里,客户是什么特征的?客户在一个市场活动出价中签定的最后时刻是在什么时候?对于竞争活动回应的频率是多少?购买的价值是什么?交付回应倾向分值渠道偏爱和客户类型,响应分析,目标整个商业活动对比分析市场活动的类型哪种类型的活动产生
24、最多的回应?市场活动报价哪种类型的报价产生最多的回应?市场活动渠道哪种交流渠道产生最多的回应?市场活动回报大量认购、转换比率每次认购的最低平均花费每花1元的最高的收入每次认购最高平均收入(认购后3个月的平均收入)每次认购最高平均使用流量(认购后3个月平均通信量)最低流失率交付市场活动对比报告,响应分析,响应分析的过程,回应建模,个人用户活动分析,全部活动对比,回应分段1,回应分段2等 etc,渠道偏爱,用户特征,回应建模,回应分段1,回应分段2等 etc,渠道偏爱,用户特征,市场活动1,市场活动 2等 etc,活动类型,活动报价,活动渠道,活动回报,价格方案(套餐)案例研究,用户的需求价格计划
25、的解决方案,范围模拟方案应该适用于以下的假设情况:新价格方案 在订购价格上改变在呼叫费率上改变,例如:每分钟收费(本地、国际接听和呼出)在短信息费率上改变,例如:每条短信费用(本地,国际)免费呼叫时长的改变免费短信、彩信的改变在增值服务上的改变,例如:漫游、主叫号码,呼叫等待,VM(语音邮件),彩信,号码携带等解决方案也应该提供效果分析用户迁移、改变价格方案LTV(生命时间价值)和全部收入业绩,项目目标SAS提交的是一个模拟的解决方案,用来评估客户的行为和对于有竞争力的价格和促销活动的反映。模拟解决方案在不同的假定的价格计划基础上,允许客户预测用户运动和收入产生的影响,步骤和方法论,为了满足需
26、求,SAS建议对POC(成批输出转换程序)的方法如下所示:步骤1(分段和特征)通过每一个用户的价格计划,来看透他们的行为。然后对现有用户类别和使用格调进行分析,步骤2(预测数据建模)对现有用户涉及变更价格计划历史行为的分析中,识别主要动机与驱动原因。步骤3(模拟和效果分析)应用在1、2步中学习到的知识,分析现有客户对于新价格计划和有竞争力的促销的潜在反应.对用户行为和转换的影响的分析,和全部收入的绩效等当一个新的价格方案被推荐或者说当有在价目表上有新的变化的时候,哪些用户愿意实施并转换价格计划?由于用户的行为,影响收入的是什么?,价格计划建模行为定义,行为窗口观察并分析用户的行为的时间窗口活动
27、窗口市场活动的时间窗口执行窗口迁移行为发生的时窗,分析月份2003年8月统计采样:85,274服务号码作为分析月份中(2003年8月)来自6个价格计划的用户80,189个服务号码从2003年9月到2003年10月期间,在6个价格计划里迁移的用户被定义为“变更”,否则定义为“未变更”“变更”527(0.66%),“未变更”79,662(99.34%),价格方案建模分类探测,检验2个行为变更的变量的关系能哆明白两个交互的变量是如何影响变更行为的。,通过每一个变量来检验变更的分布图表显示有高额免费通话时长的用户更愿意“变更”,模型的评估及精确度,“变更”527(0.66%)“不变更”79,662(9
28、9.34%)上升 1%通过802个目标(1%of 80,189),能够捕获“变更”中的 54(10%)上升 10%通过8,019个目标(10%of 80,189),能够捕获“不变更”中的 223(42%),所有计划套餐1套餐2套餐3套餐4套餐5套餐5,高消费层分段 国内的漫游国际长途 短信型数据应用型 低额客户信息台 市话高额,表格图表,分段呼叫使用合同信息统计图表,外呼到竞争对手接入代码外呼到用户的接入代码发出短信分布呼出到固话和手机外呼到运营商运营商呼入呼叫时长分类,合同保有分布增值服务描述的分布,年龄分布地区分布,用户分布本地呼叫行为国际呼叫行为短信息使用行为,价格方案-总述 分段与特征
29、 价格方案模拟 客户生命期价值,选择一个套餐,套餐1,选择一个分段,报表的类型,报表,图形,分析,通话时长,呼出的竞争对手的时长统计,视图,图形,Indicative Returns/Benefits,Plan 2&3 仅占用户的13%,用户分类,套餐 1,套餐2,套餐3,套餐4,套餐5,套餐6,全部,价格方案-总述 分段与 特征 价格方案模拟 客户生命期价值,选择一个套餐,套餐1,选择一个分段,报表,图形,分析,通话时长,视图,图形,用户数量,免费通话时长和免费短信的使用,通过本地和国际服务的高使用量,本地呼叫用户的高使用量,重点使用短信服务,本地来电的高使用量,Plan 1,Plan 2,
30、Plan 3,Plan 4,Plan 5,Plan 6,价格方案-总述 分段与 特征 价格方案模拟 客户生命期价值,全部,本地网呼出,本地网呼入,国内长途,国际长途,漫游呼出,漫游呼入,短消息1,短消息2,国际短消息,免费呼入,免费呼出,客户总量,分段,数量,计划一,计划二,计划三,计划四,计划五,计划六,选择一个套餐,套餐1,报表的类型,报表,图形,分析,通话时长,视图,图形,谁会内部的转换呢,变更的趋向分析,目标:分析当前的客户内部变更价格方案的趋向,以及向外部变更价格方案的趋向通过不同的价格方案来分析运动趋向,在收入上哪些是潜在的要素呢?,通过价格方案来分析内部用户运动趋向,趋向分类,趋向比例,用户数,根据价格方案分类的用户,总计年帐单数额,通过流失分类来分析内部用户运动趋向,趋向种类,趋向比例,用户数,总计年帐单数额,根据流失分类的用户,谁会内部的转换呢,价格方案-总述 分段与 特征 价格方案模拟 客户生命期价值,