基于云计算的数据挖掘应用.ppt

上传人:仙人指路1688 文档编号:2409767 上传时间:2023-02-18 格式:PPT 页数:25 大小:2.52MB
返回 下载 相关 举报
基于云计算的数据挖掘应用.ppt_第1页
第1页 / 共25页
基于云计算的数据挖掘应用.ppt_第2页
第2页 / 共25页
基于云计算的数据挖掘应用.ppt_第3页
第3页 / 共25页
基于云计算的数据挖掘应用.ppt_第4页
第4页 / 共25页
基于云计算的数据挖掘应用.ppt_第5页
第5页 / 共25页
点击查看更多>>
资源描述

《基于云计算的数据挖掘应用.ppt》由会员分享,可在线阅读,更多相关《基于云计算的数据挖掘应用.ppt(25页珍藏版)》请在三一办公上搜索。

1、中国移动集团重点/联合研发项目结题汇报报告,项目名称:基于云计算的数据挖掘应用联合项目:基于Big Cloud的经分系统应用试验与落地项目编号:,一、开题计划完成情况,目 录,二、主要研究成果,随着近年来公司的客户、业务快速发展,用户规模日益增大,涉及业务日益增多,由此经营分析系统面临的分析数据源以数量级快速增长,包括对计费、话单、网络信令、帐单等各类数据的处理和分析以一个中等规模省公司拥有约2000万用户为例,每年产生的语音话单、信令、帐单等数据量均以PB为单位。如此海量数据,如果依然沿用传统UNIX小型机ER数据库来实现数据分析和数据挖掘,无法很好支撑市场运营需求,1.1 研究背景(1),

2、1.1 研究背景(2),目前经营分析中数据挖掘应用解决方案面临如下挑战:数据处理量解决方案取决于Unix小机和磁盘存储挖掘数据量仅能达到省公司全网数据的1/10左右处理时限受硬件平台影响,数据挖掘应用的结果不能满足目前”实时”的要求成本对传统的UNIX+DB系统,扩容的风险较大,成本较高,无法灵活性在当前的管理模式下,好的数据挖掘应用难以在全国各省间复制引用,1.1 研究背景(3),云计算(Cloud computing)是指基于互联网的超级计算模式。即把存储于个人电脑、移动电话和其他设备上的大量信息和处理器资源集中在一起,协同工作。它是一种新兴的共享基础架构的方法,可以将巨大的系统池连接在一

3、起以提供各种IT服务是一种利用大规模低成本运算单元通过IP网络相连而组成的运算系统,以提供各种运算服务优势:高性能、低成本、通用性强目前,某些企业也把以虚拟化技术为基础提供的IT资源服务包装成“云计算”,1.2 研究目标及意义,将“云计算”应用于经营分析支撑集中建设和提供用于经营分析的资源和服务,实现资源共享,扩大并提升经营分析基础设施和相关应用的应用价值基于“云计算”构建企业级的分析数据挖掘平台利用“云计算”整合经营分析基础设施,依托“云设施”提供海量数据的挖掘和分析能力,提升经营分析系统的市场运营支撑能力基于云计算的数据挖掘应用基于用户语音、数据、增值、信息化产品等业务消费,深度发掘用户的

4、特征矩阵具备对千万级的用户进行特征化分群、分层和分级处理能力,实现对一线营销的的精准支撑,1.3 研究总体框架,1.4 项目实施计划,1.5 研究成果输出,构建能承载电信应用的企业级云计算平台,提出一种云计算平台系统管理方法构建基于云计算的经营分析数据挖掘平台,提出一种基于云计算的数据挖掘并行处理技术利用云计算的数据挖掘平台,构建湖北移动某个地市所有用户的行为特征矩阵(客户特征标签),1.6 项目完成情况及存在问题分析,项目完成情况:完成了企业级云计算平台,部署了云计算平台系统管理工具,实现了云平台管理根据项目目标,选取了移动研究院自主研发的BC-PDM作为云挖掘工具,部署了BC-PDM,并基

5、于BC-PDM的应用,提出了基于自适应K-MEANS的电信用户特征选择方法,提出了用户特征识别、选择和用户特征矩阵构建方法应用上述云挖掘方法,根据湖北移动某个地市的用户行为数据,构建用户的行为特征矩阵项目存在问题:BC-PDM平台在实际处理数据挖掘方面有很强的易用性和可操作性,能快速的处理数据,并得到较好的处理结果,但需要做更多的测试,来完善该系统。,一、开题计划完成情况,目 录,二、主要研究成果,基于湖北移动构建的经营分析支撑体系和丰富的经营分析支持资源,结合华中科技大学在云计算和数据挖掘等方面已有和在研成果,本项目利用现有省级经营分析系统资源,构建基于数据仓库和数据集市的应用级云计算平台提

6、供经营分析资源的整合、共享和协同的管理能力,以提升经营分析系统计算能力和响应效率实现对云计算平台系统的资源管理、性能监控和故障监控,2.1 云平台部署,2.1.1基于云计算的经营分析数据挖掘平台研究,研究挖掘平台:(1)工作流模块研究对各数据挖掘步骤及模块的总控和调度方法(2)数据加载模块研究将源数据从其他外设导入云计算平台的DFS系统构建技术(3)并行ETL插件模块研究对原始数据的清洗、预处理以得到挖掘数据的技术研究通过并行数据挖掘工具向云计算平台提交待执行ETL任务,由云计算平台执行并反馈结果,存放于DFS的并行计算处理过程(4)并行数据挖掘算法及其管理模块研究满足业务需要的数据挖掘算法研

7、究通过并行数据挖掘工具平台向云计算平台提交聚类算法任务的Map-Reduce过程(5)并行结果展示接口模块研究将并行数据挖掘和分析结果进行客户端展示的技术选取移动研究院自主研发的BC-PDM实现数据加载和挖掘算法的承载,2.1.2平台部署云计算集群及BC-PDM平台,湖北公司采用经分利旧设备,在本地搭建云平台测试环境,部署BC-PDM软件,六节点环境,优势:在省公司现网环境构建物理私有云平台,内网数据传输保证数据安全,2.1.3平台部署云计算管理平台,云计算平台系统管理性能管理实时监控历史查询、统计热点监控可以和其他系统接口故障管理实时发现主机和服务的故障可以进行故障的抑制和主动恢复可以和其他

8、系统接口历史查询和统计故障的及时通知资源管理动态管理虚拟机管理虚拟网络监控系统资源部署云服务用户管理实现整个系统的4A统一用户管理统一认证集中和分散授权,2.2 基于云计算的数据挖掘,探索现有数据挖掘经典算法的经营分析应用,提供海量数据挖掘和分析能力,以提升经营分系统的数据处理和分析能力应用基于云计算的数据挖掘平台,进行经营分析应用研究研究并构建用户特征矩阵,实现用户行为的精准定位,提供用户及其分群、分类、分层和分级的快速响应能力,2.2.1 基于BC-PDM的挖掘框架,根据移动用户通信行为、消费行为和业务办理渠道分析,进行数据清洗和汇总,挖掘用户特征,并由特征构成用户聚类,从而进行营销应用研

9、究,基于BC-PDM的经分数据挖掘框架,用户特征数据,ETL处理,用户特征选择,用户特征聚类,结果评估,营销应用,用户特征描述,2.2.2 基于BC-PDM的挖掘应用研究,用户特征识别,用户特征组织,研究目标:探索BC-PDM在移动用户特征挖掘中的应用用户特征识别用户特征组织,云存储平台,云计算平台,2.2.3 基于自适应k-means的电信用户特征选择方法,为了能自动发现聚类结果的潜在类别个数,本项目提出通过采用一种自定义判别函数评估聚类结果,自适应确定k值的聚类分析方法原始数据经过预处理、特征提取后即可得到原始用户特征矩阵。对原始用户特征矩阵的每一列使用自适应k-means算法聚类,得到p

10、组返回值,对这p组返回值按判别函数的最大值排序,取前g个判别函数最大值属性,构成用户特征矩阵,2.3基于云计算的数据挖掘应用,基于云计算经营分析数据挖掘平台,整合数据仓库和数据集市资源,研究用户行为分析方法通过对某地市用户数据的挖掘和分析,捕获用户行为特征构建用户特征矩阵,实现用户特征精准定位提供用户及其分群、分类、分层和分级的快速响应能力,支撑市场运营需要构建用户的内容偏好、业务偏好、使用偏好、渠道偏好等相关用户行为画像,为精准营销和差异服务提供分类依据,2.3.1样本准备及数据加载,根据某月内某地市的移动用户通信行为、消费行为和业务办理渠道分析,为移动通信的营销模式提供业务支撑,2.3.2

11、 用户特征选择及聚类,构建用户特征矩阵整理经分系统信息,对用户特征进行建模、构建用户特征矩阵用户特征聚类使用kmeans算法聚类。根据经验值选取初始中心点,如普通市话多,长话多,漫游多,闲时通话多,短信多,上网多用户,标出每类用户的显著特征,以这样的数据作为中心点文件,用户特征选择,用户特征聚类,2.3.3 用户行为挖掘及刻画流程,有效用户信息表,优惠订购信息表,服务订购信息表,业务量汇总信息表,业务受理信息表,数据维数高达251维,按照用户特征选择原则进行属性筛选,保留92个属性使用PCA降维构建用户特征矩阵,用户特征矩阵,K-means聚类,用户行为细分,试验中将用户分为:短信业务较多用户,市话话费多用户,长话较多用户,上网流量多,外地漫游多用户等,2.3.4挖掘模型评估,直接评估。根据聚类结果给出饼图、直方图、用户在不同类别分布的百分比等方式评估聚类结果。,营销评估。根据市场的反馈信息,评估系统的实用性、分析本系统的成功与不足之处。,聚类模型评估方式:,聚类模型业务意义:,对模型进行统计分析后,能得到这样的结论:用户特征描述由几个关键词组成,例如“月通话时间超过50小时的用户喜欢通过10086办理业务”。通过计算每类用户特征相关值,决定用户特征描述的关键词。,25,结束,谢谢大家!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号