《歌曲下载业务潜在用户模型(三季度).ppt》由会员分享,可在线阅读,更多相关《歌曲下载业务潜在用户模型(三季度).ppt(17页珍藏版)》请在三一办公上搜索。
1、歌曲下载业务潜在用户模型,研究背景 建模过程 模型检验及应用,目录,2010-7-1,定义:歌曲下载是指为客户提供完整的、高品质的正版数字音乐的单曲,下载的音乐全部是完整的,绝非高潮部分的试听版本的音乐。特征:提供完整、高品质的正版数字音乐;曲库丰富,歌曲更新快;资费低廉,付费灵活。,什么是歌曲下载业务?,单曲按次下载,包月租赁套餐,用户每下载一首歌曲,收取一次费用;在文件没有删除的情况下,用户购买的音乐可以无限制下载,13元/次,5元(包含可租赁50首歌曲下载)10元(包含可租赁200首歌曲下载),手机阅读业务发展目标,业务发展目标,提高业务收入,扩大用户规模,提高活跃,激活沉默,增加黏性,
2、拉动新增,高活跃用户推荐客户端,已有用户推荐偏好内容,潜在用户推荐阅读业务,潜在用户挖掘流程,具体内容,两个用户群的用户做对比分析,看有什么不同的用户特征,计算潜在用户推荐指数,按潜在用户推荐指数决定入选优先级别,目的,逻辑回归模型简介,LOGISTIC回归模型的一种最简单形式即所谓的二分类变量回归模型 相应变量是类如是否的一二分类变量(如是否流失、是否购买等)连续概率转换函数为LOGISTIC函数,即:采用极大似然方法获得相关参数的估计模型的统计诊断也主要包括模型的拟合优度诊断以及回归系数的显著性诊断两个方面 LOGISTIC回归的评分是利用新样本的变量取值,通过上述的方程式计算相应概率的过
3、程,即:其中:,逻辑回归模型定义,研究背景 建模过程 模型检验及应用,目录,研究方法,研究工具,使用clementine12.0完成选择变量和建模的过程。,对提取的15W用户数进行选择,选择全曲下载活跃用户5W用户,再选择不活跃的约10W用户,两者比例为1:2的样本,其中一份用于建立逻辑回归模型,得出逻辑回归计算公式用于预测;另一份用于根据逻辑回归模型进行虚拟的预测,将预测结果与实际情况进行比对以检验模型的准确性并优化模型。模型建成后对预测用户打分,从而选择优质用户。,研究方法与研究工具,模型优化,4,模型建立,3,变量筛选,2,数据预处理,1,数据需求分析 数据抽样提取和数据 核查 数据预处
4、理,探索分析 建模属性分析 业务经验筛选 特征建模(卡方检验等)筛选 数据质量筛选相关分析筛选 Wald显著性检验筛选,建立基于逻辑回归算法的潜在用户预测模型 建模方法选择:进入法,逐步法等 模型类型选择:主效应、全效应,测试预测模型预测效果准确率查全率提升度 模型优化属性分析方案优化抽样比例优化属性选择优化,数据准备,建模和优化,逻辑回归的预测步骤,数据预处理步骤变量筛选及结果,业务经验筛选,特征建模筛选,数据质量筛选,相关分析筛选,Wald显著性筛选,1,2,3,4,5,终端是否支持JAVA终端是否支持GPRS,终端信息,全曲下载业务字段选择,基本信息,ARPU年龄区域归属类型是否集团成员
5、品牌,飞信用户标识来电提醒用户标识,业务订购,MOU新业务费12530短信上行条数彩铃下载次数gprs流量费WAP登陆次数数据业务费用,消费行为,模型建立过程,使用Clementine进行字段处理,建立逻辑回归分析模型。Clementine流如下:,模型建立过程,根据模型得出逻辑回归打分公式:其中=(-0.650)*豫通卡+1.687*本地通+(-5.125)*标准神州行+(-1.085)*全球通(预付费)+(-1.283)*动感地带+(-0.514)*神州行亲情卡+(-0.147)*神州行乡情卡+(-0.474)*神州行休闲卡+(-0.573)*神州行大众卡+1.080*(来电提醒用户标示=
6、1)+(-0.007)*(集团成员标识=1)+(-0.088)*(是否飞信用户=1)+(-0.357)*(终端是否支持JAVA=1)+0.190*(彩铃下载次数0 and 彩铃下载次数10 and 彩铃下载次数50)+1.014*log(数据业务费用+1)+0.516*log(新业务费用+1)+0.697*(gprs费用10 and gprs费用30 and gprs费用70 and gprs费用150)+1.192*(wap登陆次数10 and wap登陆次数50)+0.163*(年龄20 and 年龄40 and 年龄60 and 年龄99)+(-0.147)*(ARPU20 and AR
7、PU50 and ARPU100 and ARPU200 and ARPU300)+(-1.209)*(MOU0 and MOU20 and MOU50)+0.359*(地域属性=县城)+0.010*(地域属性=城市)+2.415*(12530短信上行次数0 and 12530短信上行次数10 and 12530短信上行次数50)+(-2.894),研究背景 建模过程 模型检验及应用,目录,预测模型收益评估较高,模型收益较高,尤其是对于潜在度较高的用户,模型预测较为理想,覆盖率图纵轴为查全率,即筛选用户中目标用户在候选用户中所有目标用户中的占比,表明模型筛选用户在候选用户中占比。这个图说明模型筛选出50%的用户可以预测到接近目标用户的90%,预测模型准确率检验,其中卡方概率的取值小于0.05(缺省的显著性水平),由此可以推断自变量整体对因变量有显著的解释能力,模型整体拟合较好。,用测试的数据对模型进行检验,用户群为全曲下载活跃用户,共25263户,模型准确预测到18513户,准确率达到73.28%,模型具有可用性。,模型的应用,Thanks,