河南移动互联网行为分析应用案例.doc

上传人:仙人指路1688 文档编号:2880903 上传时间:2023-03-01 格式:DOC 页数:28 大小:4MB
返回 下载 相关 举报
河南移动互联网行为分析应用案例.doc_第1页
第1页 / 共28页
河南移动互联网行为分析应用案例.doc_第2页
第2页 / 共28页
河南移动互联网行为分析应用案例.doc_第3页
第3页 / 共28页
河南移动互联网行为分析应用案例.doc_第4页
第4页 / 共28页
河南移动互联网行为分析应用案例.doc_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《河南移动互联网行为分析应用案例.doc》由会员分享,可在线阅读,更多相关《河南移动互联网行为分析应用案例.doc(28页珍藏版)》请在三一办公上搜索。

1、河南移动互联网行为分析应用案例总体说明1.1 背景目前河南WAP网关中有大量用户上网日志,此重要的信息没有被很好地挖掘,无法形成有效的用户知识,不能支撑对客户的营销工作,在此背景下,我们建设互联网行为分析系统,一方面完善对用户的认知,一方面在此基础上支撑对用户的营销1.2 目标本期的建设目标以平台搭建为主,辅以业务应用,具体目标如下:1、搭建互联网用户行为分析平台,重点建设用户群提取,提升用户群精确定位能力。2、支撑业务部门的关键词检索分析、网页内容解析业务。1.3 实施要求1、 系统遵循中国移动集中的4A规范,以及河南省移动公司的安全管理规范 2、 系统要从网络层、主机层、中间件层、应用层四

2、个层次进行保证可靠性3、 系统要保持可服务性4、 系统要有简单的可扩展性功能介绍1.4 技术实现河南的互联网分析主要涉及几个方面:数据采集、数据清洗、网络爬虫、文本解析、索引创建、搜索查询1.4.1 数据采集互联网分析的数据采集主要来自wap日志,wap日志ftp服务器以文件的方式进行抽取到互联网分析系统,并装载到数据仓库1.4.2 数据清洗数据清洗处理流程:1、 获取wap日志,wap日志从wap网关分时段进行装载入库。2、 通过存储过程剔除图片和应用网页。3、 根据二八原则获取有意义的日志群4、 格式化网址,对类似网页进行格式化5、 根据知识库的沉淀,剔除不需要爬取的网站6、 给url进行

3、增加id7、 数据剔重8、 形成可以爬取的url数据流程图如下,以上过程全部通过数据库进行。1.4.3 互联网爬虫一、服务器清单设备名称服务器ip是否主节点备注爬虫服务器110.96.24.160 是设备型号DL585爬虫服务器210.96.24.161否设备型号DL585爬虫服务器310.96.24.162否设备型号DL585爬虫服务器410.96.24.163否设备型号DL585二、四台服务器上部署的软件设备名称软件类别软件名称版本占用空间(GB)爬虫服务器操作系统Linux redhat10以上5配套软件Tomcat5.51.5配套软件Jdk1.60.3应用软件hadoop10.3应用软

4、件爬虫软件10.7三、应用说明:1. 系统把爬取数据形成爬取文件,通过ftp把爬虫文件传递给爬虫服务器。2. 爬虫服务器接收到输入的URL文件和分块大小,Hadoop会自动将URL切分成若干个URL列表,作为Map函数的输入 3. Map函数根据输入URL,爬取相应网页,输出网页源代码 4. 各Map函数之间的处理完全独立。具体哪个爬虫服务器爬取哪个URL由Hadoop自动调度分发。 5. 爬取结果通过ftp传递给分析服务器。1.4.4 互联网分析一、服务器清单设备名称服务器ip是否主节点备注分析服务器110.87.25.111是HP PC server分析服务器210.87.25.112否H

5、P PC server分析服务器310.87.25.113否HP PC server分析服务器410.87.25.114否HP PC server二、服务器部署的软件设备名称软件类别软件名称版本占用空间(GB)分析服务器操作系统Linux redhat10以上5配套软件Tomcat5.51.5配套软件Jdk1.60.3应用软件hadoop10.3应用软件分析软件10.7三、应用说明:1. 爬虫服务器把爬取的网页源代码文件通过ftp传送给分析服务器,作为分析服务器的输入。2. 输入网页源代码文件,Hadoop会自动将文件切分成若干个份列表,作为Map函数的输入 3. Map函数根据输入源代码,进

6、行页面解析、分词、分类等分析,输出分析结果 4. 各Map函数之间的处理完全独立。具体哪个分析服务器分析哪个URLID由Hadoop自动调度分发。 5. 分析服务器把分析结果进行入库。1.4.5 互联网全文检索一、服务器清单:设备名称服务器ip是否主节点备注搜索服务器110.87.25.115否HP PC server搜索服务器210.87.25.116是HP PC server搜索服务器310.87.25.186否HP PC server搜索服务器410.87.25.188否HP PC server搜索服务器510.87.25.119否HP PC server搜索服务器610.87.25.1

7、20否HP PC server二、服务器部署的软件设备名称软件类别软件名称版本占用空间(GB)搜索服务器操作系统Linux redhat10以上5配套软件Tomcat5.51.5配套软件Jdk1.60.3配套软件oracle客户端11g10应用软件active MQ10.3应用软件全文检索服务端10.2应用软件全文检索客户端10.1应用软件etl客户端0.7三、 应用说明:1、索引创建分为两部分:A、 关键词索引和黄页索引按地区每日创建一个索引库。B、网页索引则每三小时执行一次创建命令,如果执行命令时已有待索引的网页源文件则创建一个单独的索引库;2、关键词查询是实时扫描前台的查询信息,搜索到查

8、询信息以后,以消息的形式发给Active MQ,由Active MQ进行任务分发给查询服务器集群,示意如下:ActiveMQ可以维护很多不同的队列,我们只要将每台查询服务器中设置不同的队列,不同的客户端使用的消息队列与不同查询服务器的队列设置成一样,这样就可以将任务分配给不同的查询服务器。 3、整个调度使用经分的ETL,通过etl的调度控制。 4、查询结果通过ftp传递给ckm进行前台展示。1.5 技术架构1.6 模块介绍1.6.1 URL业务过滤目的对于抽取入库后的WAP日志数据,根据相关的业务过滤策略进行业务过滤,分解出需要分析的网页,送入爬取服务器。功能列表功能名称描述备注策略过滤根据业

9、务策略得到待分析任务。过滤策略包括:去重策略、网站策略和网站更新策略,前一天汇总策略; URL任务分解对过滤后的日志,分解出待爬取的网页URL,需要URL分类的URL。处理1.6.2 网页爬虫目的根据WAP日志文件爬取URL的源文件功能列表功能名称描述备注URL任务控制传爬取任务到爬虫服务器并记录最大处理量和待处理量到爬虫监控信息中网页缓存根据设置文件传回到服务器的IP及目录,并根据URL来确定网页的分类,并解压出网页文件,并在缓存目录下创建分类目录,并把网页文件放到相应的分类目录下爬取爬取URL的源文件网页文件传回传网页文件到磁盘陈列上,并记录爬取的成功和失败量处理1.6.3 网页分析目的对

10、爬取URL的源文件进行分词,分类,分关键词,对过滤的URL分类。功能列表功能名称描述备注添加分类添加,更新,删除分类,并为分类添加,更新,删除训练集,并进行分类训练。分类训练对添加,更新,删除的分类重新进行分类训练内容分类根据词库对网页文件分类, 把分类文件中分类结果保存到数据库中分关键词根据系统关键词词库分关键词, 把关键词文件中分关键词结果保存到数据库中URL分类按URL默认规则对URL进行分类用户行为分类根据WAP用户访问日志和网页分类对用户行为进行分类用户行为分关键词根据WAP用户访问日志和网页关键词对用户行为进行关键词处理1.6.4 前台展现客户群查询目的 提供客户群的查询,业务人员

11、使用不同的条件查询满足条件的客户群,可以查询用户分类偏好、用户关键词偏好和当月用户分类偏好、当月用户关键词偏好。功能列表功能名称描述备注查询客户群在主页面提供简单的查询,简单查询只能使用分类名称、分类访问次数、关键词名称、关键词访问次数来查询客户群。还提供高级查询功能,查询分类偏好和关键词模型,查询条件有分类名称、权重、访问次数、关键词名称、权重、访问次数支持条件关系和逻辑关心。处理视图管理目的方便业务人员了解网站的访问情况和客户的行为。功能列表功能名称描述备注用户视图通过用户视图可以了解到用户的基本属性、用户的分类偏好、用户的关键词偏好,用户访问互联网的情况用户云图通过云图了解用户点击的关键

12、词和访问次数网站视图通过网站视图可以了解到网站的访问量,网站的基本信息,网站所包含的URL网站热力图热力图展示以刻度值来显示网站分类热度情况。处理 1.6.5 网站/URL管理网站管理目的对网站的基本信息及策略(是否爬取,更新周期),及网站对应的URL进行维护,依据这些策略来爬取或者不爬取网站下的URL对URL默认分类管理,URL分类根据设置来对URL进行按后辍名或者包含的内容进行分类。功能列表功能名称描述备注网站维护根据URL特定条件,对网站的网站信息、网站基准URL(即首页的URL,以该URL为前缀的所有URL都会被归入该网站)、网站所含关键词等信息进行修改,删除等操作网站策略维护对于网站

13、策略的信息进行修改,删除等操作处理1.6.6 URL管理目的对URL默认分类及URL过滤进行设置,为URL分类及URL过滤提供规则。功能列表功能名称描述备注查看URL默认分类查看URL默认分类添加URL默认分类添加URL默认分类更新URL默认分类更新URL默认分类删除URL默认分类删除URL默认分类查看URL过滤查看URL过滤添加URL过滤添加URL过滤更新URL过滤更新URL过滤删除URL过滤删除URL过滤处理1.6.7 系统监控及调度 核心组件监控目的根据日志信息监控网页爬取和网页分析的运行情况,对异常情况进行前台页面显示,和系统重启操作;功能列表 该核心监控包括爬取任务进程监控、网页分析

14、进程监控,详见下表:功能名称描述备注爬虫服务器爬取网页源文件任务进程状态监控ETL调用shell命令,获取执行爬虫服务的进程的运行状态,并在前台页面显示,如果得到爬虫服务器爬取进程停止信息,则ETL调用shell命令,重启爬取进程每隔一定时间,进行监控网页分析任务进程状态监控ETL调用shell命令,获取网页分析服务器分析进程的运行状态,并在前台页面显示,如果得到分析取进程停止信息,则ETL调用shell命令,重启分析进程每隔一定时间,进行监控处理爬取进程系统监控 网页分析进程监控 业务监控 目的 ETL对wap日志的获取,过滤,url默认分类,已知URL分类,网页爬取和网页分析六个过程中的处

15、理量、成功量、失败量和处理速度进行监控,对于某个处理量达到该处理过程的上限阀值进行告警; 功能列表 业务监控主要功能点包括:Wap日志获取监控、Wap日志url过滤监控、url默认分类监控、对已知URL分类过程监控、网页爬取过程监控、网页分析过程监控;详见下列表: 功能名称描述备注Wap日志获取监控对提供WAP日志接口处理文件量进行监控,如果达到WAP接口处理量情况,进行告警,输出到前台监控页面,由系统维护人员进行维护主要监控:URL到达总量,待加载URL总量,加载成功量,加载失败量,处理速度Wap日志url过滤监控对从WAP日志中抽取URL后进行过滤操作进行监控,并对异常情况进行告警,输出到

16、前台监控页面,由系统维护人员进行维护主要监控:抽取URL总量,待过滤URL量,过滤通过量,过滤去掉量,处理速度url默认分类监控对按URL策略分类操作的过程监控,并对异常情况进行告警,输出到前台监控页面,由系统维护人员进行维护主要监控:按URL策略分类总量,待URL策略分类的量,按URL策略分类成功量,按URL策略分类失败量,处理速度网页爬取过程监控对爬取服务器爬取文件操作的监控,并对分析过程中文件量过大,超过处理阀值等异常情况进行告警,输出到前台监控页面,由系统维护人员进行维护主要监控:送入爬虫服务器URL总量,待爬取URL的量,爬取URL成功的量,爬取URL失败的量,处理速度网页分析过程监

17、控对网页分析服务器分析网页操作进行监控,对分析文件过大,超过阀值等情况进行告警,输出到前台监控页面,由系统维护人员进行维护主要监控:网页分析文件到达总量,待分析网页的文件量,网页分析成功的文件量,网页分析失败的文件量,处理速度 处理 系统调度 目的 系统调度是为了使互联网行为分析的各个流程模块,能够很好的相互连接,顺序进行,快速准确的输出分析结果; 功能列表系统调度模块包括:URL过滤调度、网页爬取调度、网页分析调度、网页文件回传调度、网页缓存调度,具体见下表:功能名称描述备注URL业务过滤调度当WAP日志抽取之后生成有效URL列表,ETL执行URL业务过滤调度,执行业务过滤操作,每隔一定时间

18、,执行调度网页爬取调度如果数据库中有待爬取的任务生成时,执行爬取调度操作,将需要爬取的URL文件,FTP到爬虫服务器,执行爬取操作每隔一定时间,执行调度网页分析调度如果磁盘阵列上有爬取文件生成,则执行分析调度操作,将爬取文件FTP到分析服务器上,执行分析操作每隔一定时间,执行调度网页回传调度当爬虫服务器有爬取结果生成时,执行网页回传调度,将本地的结果FTP到磁盘阵列上,等待网页分析调度每隔一定时间,执行调度网页缓存调度当系统执行网页分析调度时,首先执行网页缓存调度,将待分析的爬取文件,缓存到临时数据库,当有分析结果生成时,手动删除临时表信息每隔一定时间,执行调度 处理1.6.8 搜索任务管理目

19、的管理搜索任务及查看任务的统计信息及用户清单。功能列表功能名称描述备注前台展示显示用户定义的搜索任务及查看任务的的信息(任务ID,查询条件,搜索类型,查看用户群信息,删除操作)也就是搜索任务查看搜索任务创建链节到搜索页面搜索任务删除删除当前自己的搜索任务,如果当前任务超期,则删除对应的清单。数据处理搜索任务展示目的显示用户定义的搜索任务及查看相关的数据处理关键词删除目的 删除当前自己的搜索任务,如果当前任务超期,则删除对应的清单。数据处理1.6.9 搜索服务与管理目的 调用搜索服务接口来搜索关键词,并生成离线任务,并显示完成的任务的搜索清单。功能列表功能名称描述备注关键词搜索页面搜索用户关心的

20、包含关键词的网页, 根据用户输入的条件生成搜索任务,以便离线查询关键词,访问次数及搜索类型(全部,网页,关键词)关键词搜索结果显示根据任务来显示相应任务的搜索清单(用户ID,关键词,词频,访问次数)数据处理关键词搜索页面目的根据用户的输入条件,调用搜索服务,生成搜索服务。数据处理关键词搜索结果显示目的显示搜索关键词的结果,以便查看搜索结果。功能列表功能名称描述备注关键词搜索结果显示显示搜索关键词的结果,以便查看搜索结果数据处理1.6.10 搜索服务目的为CKM等其它系统提供用户清单搜索的服务。功能列表功能名称描述备注搜索服务 搜索界面,结果显示,搜索服务建立索引针对wap日志由Lucene自动

21、建立网页全文索引,关键词全文索引删除索引 删除超期的全文索引查询索引 定时调度,根据关键词,索引库类型查询,导出查询结果数据处理1.6.11 用户搜索结果后台汇总目的根据网页搜索结果结合用户访问清单、搜索任务信息汇总满足搜索条件的用户清单及用户汇总信息,提供给前台展示及CKM应用。功能列表功能名称描述备注关键词用户清单汇总网页搜索结果表和带id用户访问日志清单表通过url_id关联获取用户id,汇总出关键词用户清单信息关键词用户汇总信息汇总关键词用户清单信息根据用户id、关键词汇总,得到访问次数、总词频信息。关键词用户汇总信息转横表关键词用户汇总信息结合搜索任务信息表的关键词列表,动态构造sq

22、l,汇总得到关键词用户汇总信息横表,用于搜索条件过滤搜索任务用户清单汇总根据搜索任务信息表的格式化查询条件及任务id查询关键词用户汇总信息横表,得到搜索任务用户清单信息搜索任务用户汇总信息汇总对搜索任务用户清单信息进行汇总,得到总用户数、平均访问次数搜索任务用户清单抽取将搜索任务用户清单抽取给CKM数据清理定期清理过期的汇总数据数据处理场景实例1.7 互联网分析全文检索精准定位目标客户群1.7.1 “快乐男声”特征群创建说明:1、 此页面时创建客户群,左边圈定的A为创建流程,右边圈定的B为创建的群名。2、 其中“*”为必填项,填写完成后进入下一步。3、 下一步是提示你选择通过规则还是通过导入获

23、得客户群,我们通过规则。4、 接下来创建规则1.7.2 客户规则建立说明:1、 选择创建类型,客户群的创建分为属性、互联网和黄页,此处是通过互联网分析来获取客户群。2、 查询条件可以通过几个方面来查询,此处仅选择了网页浏览。3、 同时,查询条件可以选择归属地区,归属地区可以是全省或者某一个地区;访问时间段可以选择一天或一段时间1.7.3 客户群结果说明:1、 查询结果显示,关注快乐男声的用户数是10258个用户。这是关注快乐男声的全部用户2、 下面还提供了一些功能,可以提取用户号码,可以分析数据,也可以进行二次过滤,提取更为精确的客户群。3、 同时也可以依据这个客户群,进行自定义分析报表。1.8 实现统一视图客户互联网偏好内容1.8.1 输入查询条件说明:1、 在输入查询号码框中输入需要查询的号码2、 点击提交就可以查询到该用户在客户统一视图中的全部信息1.8.2 查询结果附录一:

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号