河南公司垃圾短信治理工作介绍(1).ppt

上传人:仙人指路1688 文档编号:2490589 上传时间:2023-02-20 格式:PPT 页数:26 大小:1.85MB
返回 下载 相关 举报
河南公司垃圾短信治理工作介绍(1).ppt_第1页
第1页 / 共26页
河南公司垃圾短信治理工作介绍(1).ppt_第2页
第2页 / 共26页
河南公司垃圾短信治理工作介绍(1).ppt_第3页
第3页 / 共26页
河南公司垃圾短信治理工作介绍(1).ppt_第4页
第4页 / 共26页
河南公司垃圾短信治理工作介绍(1).ppt_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《河南公司垃圾短信治理工作介绍(1).ppt》由会员分享,可在线阅读,更多相关《河南公司垃圾短信治理工作介绍(1).ppt(26页珍藏版)》请在三一办公上搜索。

1、河南公司依托经营分析系统支撑垃圾短信治理工作介绍,2011年4月,目 录,应用效果,下步工作,一、现状及问题:垃圾短信发送手段多样化给治理工作带来严峻挑战,以低频发送代替高频发送群发器发送影响面积较大,谐音和字符间隔逃避拦截由涉黄涉黑转向广告宣传,内容隐蔽,手段多样,信息安全担忧,客户满意度降低,随着垃圾短信打击力度的不断加强,垃圾短信发送的内容趋向隐蔽化、手段趋向多样化,简单地利用关键字、短信条数限制等手段已经不能满足治理需求,需要进一步加强垃圾短信息治理工作的支撑。,2010年9月11日至17日一周内确认的垃圾短信号码有4517个,其中约30%即1317个是通过举报确认的。,2010年1-

2、5月客服中心经人工审核数据368797条,其中误拦进入人工审核环节量高达96.95%。,10年2月20日至26日一周内进入人工审核的平均号码数为574,其中约有30%当天没能经过人工审核。,问 题,现 状,投诉压力增大,舆论压力增大,目前只有针对垃圾短信发送的拦截机制,需要进一步加强群发器治理、资费和渠道管理等源头治理工作。,漏拦号码量大,误拦信息严重,人工压力大,源头治理不足,同一位置,多个号码,同时发送,垃圾短信,二、解决方案(模型):依托经分系统构建垃圾短信识别模型打造垃圾短信综合治理体系完善垃圾短信治理机制,垃圾短信预测模型,群发器识别模型,在网=2月用户,在网 2月用户,逻辑回归预测

3、模型,决策树预测模型,在确认垃圾短信的基础上,STP1:从基本属性、短信行为、通话行为、费用行为四个维度出发,共设计93个指标,STP2:经过特征建模分析、双变量分析、相关和自相关分析等方法筛选建模指标变量后,剩余65个建模指标,STP3:通过建模算法计算每个用户可能发送垃圾短信的倾向值得分,分值越大风险越高,STP1:从业务知识入手,确认发送短信集中位置,STP2:运用技术手段细分嫌疑用户,STP3:回归业务知识,最终筛选疑似群发器清单,确定疑似群发器所在小区位置,经分系统垃圾短信识别模型,解决方案(应用):联合相关部门建立垃圾短信拦截工作机制,实现分级分层拦截,提升拦截效果,替代原模型高危

4、用户,对全网用户进行分级分层监控,高风险用户:设置高风险用户黑名单门限和高风险用户灰名单门限,普通用户:设置大众化拦截门限,依托经分系统,为网管中心短信监控系统提供各类型用户名单,分级:区分高风险用户和普通用户分层:对于高风险用户设置黑名单拦截门限和灰名单拦截门限,同一位置,多个号码,同时发送,垃圾短信,三、整体框架:以垃圾短信预测模型及群发器识别模型为抓手,完善垃圾短信治理机制,强化经分系统支撑能力,打造垃圾短信综合治理体系完善垃圾短信治理机制,垃圾短信预测模型,群发器识别模型,数据准备,数据抽取,数据挖掘宽表短信集中位置信息表,在网=2月用户,在网 2月用户,逻辑回归预测模型,决策树预测模

5、型,基本属性日短信行为,月短信行为上月通信行为,当天短信行为,在预测并确认垃圾短信号码的基础上,构建群发器识别模型,发送短信量、回复短信量、短信回复率发送短信对端人数、回复短信人数、人数回复率省内、省外号码分布条数、占比省内、省外号码分布人数短信分布集中时段集中时段短信数量集中时段对端人数集中时段人均发送量集中时段9位连号最大值集中时段8位连号最大值集中时段7位连号最大值集中时段9位连号总和、占比集中时段8位连号总和、占比集中时段7连号位总和、占比三天内集中时段个数三天内集中时段分布天数,短信行为(52),垃圾短信用户识别指标体系(93),基本属性(7),年龄性别地区入网时长入网渠道品牌套餐包

6、含短信数,主叫时长被叫通话时长主叫通话时长占比被叫通话时长占比主叫次数被叫次数发送短信数量接收短信人数人均发送短信量交往圈人数有效交往圈人数有效交往圈人数占比,通话行为(24),ARPU通话费用通话费用占比短信费用短信费用占比,消费行为(10),短信行为中指标没有特殊标明的均为前三天和当天两个指标,对于在网时长大于等于两月用户,通话行为、消费行为都为上月指标;对于在网时长小于两月用户,通话行为、消费行为都为日均指标,(垃圾短信预测模型)建模基础:依托经分数据,全面构建垃圾短信用户识别指标体系,构建全面且能够反映特征的识别指标体系,是建立垃圾短信预测模型的基础,依托经分系统用户数据,深入挖掘并梳

7、理垃圾短信发送特征,从四个维度建立包含93个指标的垃圾短信用户识别指标体系。,粗,细,建模准备阶段共采用了4种分析方法来筛选建模变量,从上到下是从粗到细的一个筛选过程。建模指标体系中共93个指标变量,经过4步筛选后,剩余65个指标可用于构建模型。,垃圾短信号码套餐包含短信条数120以上人数比重大,约占45%,垃圾短信号码被确认前3天未发送短信人数比重小,占36%;早8点至晚8点间为发送短信高峰时段的人数比重很大,占47%。,(垃圾短信预测模型)建模准备(例):建模准备阶段共采用了4种分析方法,从粗到细,来筛选建模变量,(垃圾短信预测模型)建模算法:分别采用决策树算法、逻辑回归算法建模,比较模型

8、效果,采用效果更好模型,决策树预测模型,逻辑回归预测模型,决策树是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。它采用自顶向下的递归方式,在决策树的内部节点进行属性的比较,并根据不同属性值判断从该节点向下的分支,在决策树的叶节点得到结论。,也称定性变量回归,类似于线性回归,但是目标字段使用字符型字段而不是数值型字段。Logistic回归建立一组方程,把输入属性值与输出字段每一类的概率联系起来。一旦生成模型,便可用于估计新记录属于某类的概率。概率最大的目标类被指定为该记录的预测输出值。,决策树算法、逻辑回归算法,是建立预测模型的两种常用算法。二者各

9、有优缺点,都可用于垃圾短信预测模型。因此,我们同时用两种算法建模,比较其实际预测及应用效果,最终选择效果较优算法模型。,训练集和测试集预测准确率的差异最小,每个用户都给出概率能精确筛选用户规模,需分段考虑变量单调性时,效果较好,对变量之间存在干扰时,可有效规避,(垃圾短信预测模型)建模结果(1):在网时长2月用户采用决策树预测模型,使用19个指标,生成40条规则用于预测垃圾短信号码,使用基本属性、3日短信行为、日均短信行为、日均通话行为、日均费用行为5类共19个指标。,生成40条规则用于预测垃圾短信号码。寻找筛选用户规模与准确率的平衡点,确定高风险用户置信度阈值为0.95。,每条规则都是几个指

10、标条件的叠加,置信度,(垃圾短信预测模型)建模结果(2):在网时长=2月用户采用逻辑回归预测模型,使用24个指标,生成逻辑回归计算公式,使用基本属性、3日短信行为、上月短信行为、上月通话行为、上月费用行为5类共24个指标。,生成逻辑回归计算公式,得分结果为垃圾短信号码倾向值,分值越高,嫌疑越大。寻找筛选用户规模与准确率的平衡点,确定高风险用户倾向阈值为0.90。,(群发器识别模型)识别思路:深入挖掘群发器发送垃圾短信特征,从4特性出发,建立群发器识别模型,发送短信位置信息,定位到具体小区,由“LAC+CI”唯一标识,利用人工确认的垃圾短信号码分析,从而确保具有垃圾短信发送行为,群发器为多卡槽设

11、备,一般以群发器为手段发送垃圾短信,一次会使用多个号码,同时发送的多个号码将产生相同的短信发送特征,例如当天高峰时段发送对端号码数基本一致,当天高峰时段发送对端号码数*:当天用户发送短信数量最多时段内,发送短信接收端号码数量。,依据群发器发送垃圾短信的业务特征“在同一位置,利用多个号码,同时发送垃圾短信”,从特性出发,深入挖掘本质,在确认发送垃圾短信号码的基础上建立群发器识别模型。,(群发器识别模型)建模步骤:业务知识与技术手段相结合,三步走,确认嫌疑群发器清单,业务知识,统计垃圾短信号码确认当天发送短信集中位置,并确认同一集中位置上垃圾短信号码及数量,从业务知识入手,确认发送短信集中位置;运

12、用技术手段细分嫌疑用户;回归业务知识,最终筛选疑似群发器清单,技术手段,业务知识,利用聚类和决策树算法,将同一位置上的垃圾短信号码分成重度、中度、轻度群发器嫌疑用户,通过同一位置上垃圾短信号码个数及群发器嫌疑用户类别是否集中,筛选疑似群发器清单,中度,重度,聚类,决策树,关键指标说明:包括当天高峰时段发送对端号码数、前三天高峰时段发送对端号码数、当天高峰时段发送对端号码前8位最大连号占比、前三天高峰时段发送对端号码前8位最大连号占比四个指标。,轻度,(群发器识别模型)技术手段步骤(1):使用聚类和决策树算法,分别按关键指标将用户分成重度、中度、轻度用户,群发器重度嫌疑用户判断规则,有以下条件之

13、一即可:当天高峰时段发送对端号码数重度用户或前三天高峰时段发送对端号码数重度用户或当天高峰时段发送对端号码前8位最大连号占比重度用户或前三天高峰时段发送对端号码前8位最大连号占比重度用户,群发器中度嫌疑用户判断规则,有以下条件之一即可:当天高峰时段发送对端号码数中度用户或前三天高峰时段发送对端号码数中度用户或当天高峰时段发送对端号码前8位最大连号占比中度用户或前三天高峰时段发送对端号码前8位最大连号占比中度用户,群发器轻度嫌疑用户判断规则,有以下条件之一即可:当天高峰时段发送对端号码数轻度用户或前三天高峰时段发送对端号码数轻度用户或当天高峰时段发送对端号码前8位最大连号占比轻度用户或前三天高峰

14、时段发送对端号码前8位最大连号占比轻度用户,首先判别群发器重度嫌疑用户,判别顺序说明:,然后判别群发器中度嫌疑用户(用户群为上一步骤剩余用户),最后判别群发器轻度嫌疑用户(用户群为上一步骤剩余用户),(群发器识别模型)技术手段步骤(2):以各指标的重度、中度、轻度用户为基础,判别群发器嫌疑用户类别,目 录,下步工作,效果一(贡献):提高模型拦截贡献度,占据最重要拦截手段位置,模型应用后平台拦截确认发送垃圾短信号码中高风险用户贡献度高达66.01%,是模型应用前平台拦截确认发送垃圾短信号码中高危用户贡献度2.23%的30倍。,效果二(漏拦):降低漏拦号码数量,规避投诉风险,模型筛选约1%的全量用

15、户生成高风险用户名单,可命中45%通过举报确认的垃圾短信用户,且这些用户是现有机制拦截不到的;一周内经举报确认的垃圾短信用户数量为2001件,约占当周垃圾短信用户总量的26%,其中预测模型能够规避915件垃圾短信带来的投诉风险。以此计算,一个月模型能够规避3921件投诉风险;一年模型能够规避47057件投诉风险。,大于等于两月用户嫌疑概率阈值0.9;小于两月用户嫌疑概率阈值0.95预测结果,效果三(误拦):提高拦截准确率,降低误拦现象,提高用户满意度,模型应用后高风险拦截平均准确率为7.73%,远高于模型应用前的0.645%,能够有效降低短信被误拦不能发送的现象,提高了用户的满意度。,效果四(

16、人工审核):降低误拦号码数量,减轻人工审核压力,节约人工成本,模型应用后平台拦截中进入人工审核的疑似发送垃圾短信号码数量远小于模型应用前,约为模型应用前的31%。其中同为星期六,模型应用前进入人工审核的疑似号码数量为2935个,模型应用后进入人工审核的疑似号码数量为917个,降低了2018个误拦号码,减少了人工审核量。,效果五(源头治理):有效识别疑似群发器发送垃圾短信所在小区位置,为公安机关打击行动提供支撑,利用确认垃圾短信号码有效识别疑似群发器所在小区位置,为配合公安机关从源头进行治理的打击行动提供数据支撑。,效果六(源头治理):建立常态化监控机制,为内部对垃圾短信源头的治理提供支撑,发送

17、垃圾短信用户其套餐包含免费短信数在120-230,、500-800上都有集中分布,占整个人数分布的44.2%,在市区普通专营、市区代办等入网渠道上办理入网的号码容易发送垃圾短信,应加强管控。,目 录,应用效果,下一步工作,调整高危用户拦截标准,确保门限值合理、准确,以达到拦截准确率提高降低漏拦误拦的目的,利用群发器位置信息,配合公安机关的打击行动提供数据支撑,净化网络通信环境,从准确、漏拦、误拦、提升四个角度对应用效果进行阶段性评估,及时调整优化模型,MajpjMVcyzj21HLfrvy96dv02lPPfYgxUS7IYmZkyEmZ0kGeYZS3bpLCkYH1lt4EK7CxmUX3

18、ijoYSOer7ZuaVWYgz4EpZrUirVpMzzvNtf1XZw5oswSXOtFaejnOcmfE1lZgnN1RSXg8wLCG8CVQ3XPJMvodPFWcpiYJgZazNSEPNIaklYSu7qSd1UpaxmZDlpN9zW7kljfsLCLi26Yv109ffbnDH8LbUN1G6ACURQ39eG12KHL9tXsZ1jzgoCK8g1kuNOh5eFvcmVT5ZYVQt9zk3rp3qLnf02FovEXxVRxjCcFRNppiJljNiOuk6fONnyX7fyGg7sXZ49BmCN5oy9VesHpKzdjTKwjrkCEQCFDehVmGax3l

19、rOEbw63VscA3YSijtUKoCyiLzAlVRp7l4QgPNHxvJFFDyjUVN3oHlMah0XBd4uTbkfPIhHtw0evPmYOrdhEDoPwvYhzlGplU1AU9mpyiCXH8gpPCBRYjq77VcnbXumNE1yGfyTsbSj89J63kRTKDkKUg3mdS5sJ4X5cQ8dK7oW9IkScssECQdz2O9UTlpRjAFPChjhLdzopQzwxQf8ozdzOhogwAooXpUF83BX4C3jRgjDJiiXEUDMaNz4vQ4n164vspddHvOIVuBBdMA4xp1YhiHk0vOJ8TL1BxogzVlMpm

20、od6ianYGmksQq6NWCEd56hZF4wfaNyZcrGfNxnPiG6ZAxSkfmhJAKtNmCqbRmppeXp8inz4eq3HkWCMSORyMMX522xpHG6basNr6KQfbZsFbHjzyNlJrruLolKFcC84dqfijBO5Dy2NaBcNEBPgQrT12PgpcKx2or2YChN5DPjs80zzdtdAdTKuW4uVv9bbZu3K2SZ2aEhTlIC1UqrIWibkzwHh6p8gLv26zr01mJybfOzFc4T7kQH1IpPwOzMDnAKPLsLrznXGjFNIA9bSWWms6ibKZwQIKrMzalwbFrQJvOP1rPH8rx2KkyYqrtQk5VRwM1HSX,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号