电信行业竞争对手分析系统的设计与实现硕士学位论文.doc

上传人:仙人指路1688 文档编号:4029383 上传时间:2023-04-01 格式:DOC 页数:110 大小:4.03MB
返回 下载 相关 举报
电信行业竞争对手分析系统的设计与实现硕士学位论文.doc_第1页
第1页 / 共110页
电信行业竞争对手分析系统的设计与实现硕士学位论文.doc_第2页
第2页 / 共110页
电信行业竞争对手分析系统的设计与实现硕士学位论文.doc_第3页
第3页 / 共110页
电信行业竞争对手分析系统的设计与实现硕士学位论文.doc_第4页
第4页 / 共110页
电信行业竞争对手分析系统的设计与实现硕士学位论文.doc_第5页
第5页 / 共110页
点击查看更多>>
资源描述

《电信行业竞争对手分析系统的设计与实现硕士学位论文.doc》由会员分享,可在线阅读,更多相关《电信行业竞争对手分析系统的设计与实现硕士学位论文.doc(110页珍藏版)》请在三一办公上搜索。

1、 电信行业竞争对手分析系统开发与研究 摘要当前时期电信行业竞争由以前单一业务逐步发展为全业务的竞争时代。竞争的激烈程度也趋于白热化,竞争对手市场数据的重要性也愈发地凸现出来。本文主要研究如何在当前电信激烈竞争的相关背景下,设计适用于电信运营商收集、分析竞争对手情报的应用系统。结合实际的生产环境,文章对系统的建设过程进行详细的介绍,涉及的每个步骤都会通过图文并茂的方式按章节来予以阐述,如功能模块的定义、系统架构的划分、具体功能实现步骤等等。其中对于系统重点模块下数据的收集分析功能会是整篇文章的重点介绍章节,配合多种模型图例和表格深化表述内容。同时对于完成的系统是否适应于生产环境需求,文章通过对系

2、统测试的描述会给出答案。 文章中介绍的竞争对手分析系统,所采用的是当前计算机网络快速发展背景下应用非常广泛的B/S架构,在简化用户操作的同时也降低了系统开发和维护的难度。该系统的应用,更进一步的完善了竞争对手信息的处理方式,把竞争对手信息的重要性提升到一个新的高度。新系统在数据处理流程上大为简化,将以前跨平台的处理方式整合为由单独系统统一处理;在业务拓展方面将目前的行业热点数据囊括进来,为企业用户提供最新的数据走势,帮助企业制定发展策略。而且系统的建设过程对于未来电信行业下数据仓库中其它系统的建设具有良好的示范作用。可以为以后的设计开发人员提供更多可借鉴的解决办法。关键词: 竞争对手, 竞争对

3、手分析系统, 数据收集分析Abstract At present, the competition in telecom industry has changed from the previous single business gradually developed into a full service competition. The intensity of competition has become white-hot competition market, the importance of data are increasingly protruding comes out

4、now.This paper mainly studies how the current telecommunication competition related background, design suitable for telecom operators to collect, analysis competitive intelligence application system. Combined with the actual production environment, the article on the construction process of the syst

5、em in detail, relates to each step through illustrated by way of chapters to elaborate, such as function modules, system architecture definition classification, function realization step and the system after the completion of the test results and so on. The system key modules of data collection and

6、analysis function is the whole article introduces chapters, with many illustrations and tables to deepen the content model. At the same time for completion system is adapted to the needs of production environment, the system test description can give out the answer.The article describes the competit

7、or analysis system, is used by the background of the rapid development of the computer network is widely used in the B/S framework, simplify the user operation and also reduces the difficulty of system maintenance.The application of the system, further improve the competitor information processing m

8、ode, to rival the importance of information to a new height. The new system in the data processing process is greatly simplified, the cross platform to integrate the separate system for unified processing; in the aspects of business development will be the industry hot data included, for enterprise

9、users with the latest data trend, help an enterprise to formulate development strategy. And the construction process of the system for the future telecom data warehouse system in the other building has a good demonstration effect. For subsequent design and development staff to provide more reference

10、 solution.Key Words: competitor, competitor analysis system, data collection and analysis目录第1章绪论11.1 课题背景11.2 研究内容与创新21.2.1 论文研究的内容21.2.2 论文的创新点31.3 论文结构3第2章系统相关平台与工具52.1 NCR作业管理和控制系统52.2 Teradata SQL Assistant开发平台72.3 报表制作平台Cognos82.4 本章小结8第3章竞争对手分析系统的需求分析103.1 竞争对手分析系统现状103.2 源数据采集的需求分析123.3 源数据逐层

11、分析的需求163.4 竞争报表模型展示的需求173.5 模型规范化建模的需求183.6 本章小结21第4章系统详细设计224.1 系统设计的目标和原则234.1.1 系统设计的目标234.1.2 系统设计的原则244.2 系统架构介绍274.3 系统功能模块的设计304.3.1 用户管理模块314.3.2 信息采集管理324.3.3 数据分析管理模块344.3.4 系统建模管理354.3.5 数据报表展示364.4 数据库设计364.5 本章小结42第5章系统实现435.1 系统开发平台和工具435.2 系统相关模块实现435.2.1 数据采集模块435.2.2 数据分析管理模块475.2.3

12、 数据分析详解485.3 本章小结53第6章系统测评546.1 测试目的546.2 测试方案546.2.1 测试环境546.2.2 功能测试546.2.3 系统兼容性测试556.2.4 并发性测试556.3 本章小结57第7章总结与展望597.1 全文总结597.2 未来展望59参考文献61图目录图2.1 经营分析系统处理方式5图2.2 NCR作业管理和控制系统6图2.3 Teradata SQL Assistant开发平台7图3.1 竞争对手分析系统用户集10图3.2 内外源数据采集13图3.3 数据采集流程14图3.4 进程处理顺序15图3.5 生产系统源数据格式16图3.6 竞争对手模型

13、层次17图3.7 报表操作流程18图3.8 星型结构19图3.9 雪花结构20图4.1 系统模块之间关系22图4.2 新旧系统功能映射关系23图4.3 系统设计原则25图4.4 B/S架构27图4.5 三层架构30图4.6 系统整体功能31图4.7 用户管理模块功能32图4.8 信息采集模块功能33图4.9 作业分析模块功能34图4.10 系统建模管理功能36图5.1 外部信息采集44图5.2 信息审核45图5.3 内部信息采集46图5.4 数据作业管理流程48图5.5 他网客户统一视图处理流程49图5.6 他网客户统一视图模型50图5.7 竞争对手业务发展统一视图处理流程51图5.8 竞争对

14、手业务发展统一视图截图51图5.9 竞争对手客户占比分析处理过程52图5.10 竞争对手客户占比分析截图53图6.1 内部采集测试流程55图6.2 数据管理测试结果56图6.3 外部信息输入测试结果56图6.4 数据管理页面输入57图6.5 数据管理测试结果57表目录表3.1 新旧系统对应表11表4.1 用户信息表37表4.2 源数据采集表37表4.3 作业信息管理表38表4.4 过网客户发展表39表4.5 客户流失分析表39表4.6 双网双待终端发展情况表40表4.7 竞争对手客户占比表40表4.8 他网客户统一视图41表4.9 竞争对手发展统一视图42第1章 绪论1.1 课题背景 曾有人说

15、过21世纪是信息大爆炸的时代,人们相传至今,此观点亦被众人所认可。信息量的快速膨胀如同链式反应一样,冲击着当今社会的每一个角落。信息时代下各个企业的发展最明显,最鲜明的特点是速度加快,特别是在信息技术发展领域,无论是其成长还是衰败。短短十数年之间,随着计算机网络在人们生产生活中的广泛应用,包括信息领域中具有代表性的行业,如电信、电力、或互联网公司都在世界各地不断创造着奇迹。美国的Google、Facebook,亦或我国的百度,阿里巴巴等大中型企业,他们在各自的领域都扮演着经济、文化、民生的重要角色。当然迅速沦落成为昨日黄花的也数不胜数,或申请破产,或被更大企业并购。Oracle收购Sun、微软

16、收购Skype,商场如战场,大鱼吃小鱼,小鱼吃虾米的现象,每天都会上演。马太效应在企业的发展和衰败中体现的淋漓尽致 迈克尔.波特. 竞争优势M. 陈小悦,译.北京:华夏出版社, 1997.。究其原因,社会的不断发展向企业提出更高的要求。如何应对不断变化、日新月异的行业与市场;是否能迅速制定发展对策并管理自身;如何及时了解市场动态,了解同行业竞争趋势,提出具有前瞻性的战略决策等,这些都是信息时代下对有旺盛生命力,综合竞争力强的企业提出的最基本要求。但同时企业各方面资源是有限的,没必要与行业中的企业全面为敌,四面出击,只有处理好同行业下与对手的竞争关系才是企业生存之道。特别是对于有限的优质客户,同

17、样是也竞争对手看重的,如何发展市场中新的潜在客户,保留高忠诚度客户,挖掘竞争对手中优质客户,这些问题已是激烈市场竞争环境下同行业各个企业正亟待解决的关键问题 詹姆斯.赫斯克特,厄尔.萨赛,伦纳德.施莱辛格. 服务利润链M. 牛海鹏等,译.北京:华夏出版社, 2001.。被视为国家重点行业的通信类企业,更是倍受瞩目。从电信行业在2008年三大巨头的重组开始,中国的电信市场进入前所未有的全业务竞争时代。这些大型企业如同在辽阔海洋上航行的庞然大物,每个体系间只有相互精密合作,才能在瞬息万变中驰骋大洋,决胜千里。所以对当前行业环境认知程度的拓展,及时做出快速响应是目前首要关注的问题。电信行业有很多方面

18、需要关注,诸如在渠道管理、终端管理、细分市场管理或是竞争管理等等,总会面临许多难题。增强企业综合竞争实力除提高自身对内的管理控制和对外客服质量外,对同行业竞争对手信息的收集,分析并找出其中的相互差异已是目前激烈竞争环境下修炼自身不可或缺的重要方法 唐守廉,郑丽,张静. 电信竞争三部曲J.电信科学,2003(1):1-3。竞争对手分析系统的引入,使人们可以从数据源的管理开始入手,从繁杂的外部数据源和庞大的内部数据源中实现可视化,精细化的管理控制。一方面系统根据情报学中的普莱斯特模型建立分层次的模型存放方式,将来自不同数据源数据进行结构化处理 约翰E普赖斯科特,斯蒂芬H.米勒. 竞争情报应用战略M

19、. 包昌火等,译.长春:长春出版社, 2004. 。对于异构的数据模型则通过清洗,聚合等方式形成覆盖业务范围广阔,历史数据清晰的中间层数据集合或是应用在数据集市中具有业务针对性强,数据冗余度小的报表层数据集合。生成的模型针对不同主题域会包含不同的数据内容。通过添加多种维度如时间、地域、运营商等信息可将数据不断分离细化 包昌火,谢新洲,李 艳. 竞争对手分析论纲EB/OL. 新华网 2003-08-20,从仓库海量的历史数据中提取相关情报,便可组成各大电信运营商关心的指标内容。如到达用户数、离网用户数、新增用户数或是不同业务领域的业务量,如短信量、彩信条数、通话时长、次数、通话时段集中度等有重要

20、价值的情报 李新峰. 竞争情报与知识管理的整合研究知识经济时代的企业战略D.硕士学位论文,天津师范大学,2004. 。另一方面系统支持模型内容的自动化更新,减少手工操作的工作强度并降低人工干预过程中可能出现的失误。在自动化数据更新过程中,模型层次之间会有数据更新的次序,使用触发器等工具解决模型层次之间更新次序问题。总而言之通过结合实际环境,竞争对手分析系统可以帮助用户避免为从庞大的数据仓库中取指标数据而需手工多次重复编写代码的工作或由于所生成的大量程序代码而导致管理工作量不断增加的问题。简化工作流程,节省工作时间,提高工作效率是本系统的一大特点 魏恒. 基于Web挖掘的企业竞争情报系统研究D.

21、硕士学位论文,山西大学,2010. 。论文提出的是竞争对手分析系统所实现的基本功能的方法,其设计符合运营商的实际需求,并且各模块之间既相互独立负责自身功能,又可以紧密联系,彼此配合解决实际生产环境中遇到的各种问题。1.2 研究内容与创新1.2.1 论文研究的内容本文在竞争对手分析系统的建设过程中介绍了系统建立时所使用的架构,选择的技术路线,数据库设计时各实体间的内容和联系,并且还包括系统模块对应的具体功能说明。重点介绍数据采集,数据分析的详细程序实现过程。通过部分图例的说明来辅助表示整个系统功能的实现方法。课题研究内容:首先结合运营商生产环境的软硬件资源完成竞争对手分析系统的设计。以该系统为目

22、标,分析从开发之初所遇到的各类问题。严格按照软件开发流程,介绍从需求确定(包括功能,性能,界面原型,业务原型等)到设计阶段的概要设计下的逻辑架构、物理架构、模块划分、功能分配、数据结构等内容,以及详细设计中涉及的算法,类的层次结构和调用关系等,并包括编码和测试阶段中开发和测试环境的搭建。其次对已完成的系统在功能和性能上进行测试并分析其结果。功能点是否完全涵盖需求,技术上是否有难以实现的瓶颈,系统在并发量较大时是否可以通过压力测试,且响应时间是否不低于n个时间单位等。然后对完成的系统所涉及的技术方法进行归类总结,结合当下行业环境分析所用到的这些技术方法的优劣势。并简单归纳国内外目前针对类似系统所

23、使用的主流技术或方法的特点。通过比较来判断系统在功能或性能上是否有提升的空间,是否可以继续优化 何振华,李兴. 电信市场竞争对手信息搜集系统开发J.电脑知识与技术, 2010(17):1-3.。1.2.2 论文的创新点 本论文有如下几个创新点: a. 论文中提出了一种电信竞争对手数据的采集方法,将采集目标划定为外部数据源和内部数据源,采集模式为内部数据单独采集、外部数据单独采集、内外数据同时采集三个模式。 b. 结合采集到的基础数据所应用的实际范围,划定出电信运营商重点关心的维度和指标。建立出具有参考价值的竞争对手分析数据模型。 c. 基于目前仓库建模理论方法的研究成果,选择合适的程序实现方式

24、,将各种理论与系统功能紧密结合起来,在实际生产环境中将起实现,完成自动化建模的功能。1.3 论文结构第1章为绪论简单介绍课题背景和论文的基本框架内容。第2章介绍目前电信企业竞争对手分析系统现状及其应用系统的组织结构和实现方法,并介绍所采用的开发管理的工具。第3章 结合实际生产环境,把电信竞争对手分析系统的需求功能点逐一讨论。第4章 介绍竞争对手分析系统中涉及的关键技术和系统设计所要实现的内容。 第5章 总结系统开发的一系列流程,详细说明在重点阶段的设计和实现方法。对于重点模块将进行具体细致的介绍。第6章 将系统进行测试后的结果进行分析和总结,汇总发现的实际问题,讨论优化的可能性。第7章 总结论

25、文中所提及的观点和课题的研究成果,归纳文章重点章节,展望课题相关成果在未来行业领域的发展前景。第2章 系统相关平台与工具目前在电信行业的通信运营商中,以某运营商的省级分公司为例,竞争对手分析系统并不是一个独立的,针对性强的系统。通常的解决方法是把与竞争对手有关的功能和数据混合到商业智能领域下庞大的经营分析系统当中。经营分析系统处理方式如图2.1所示:图2.1 经营分析系统处理方式该系统是由多个软件平台与工具协同完成的,其中包括:来自营业系统内部源数据管理的UNIX操作系统,负责源数据抽取过滤加载等一系列作业管理的NCR作业管理系统,负责数据模型开发与维护的Teradata SQL Assist

26、ant 程序开发客户端工具和展示数据报表用到的Congnos工具。2.1 NCR作业管理和控制系统NCR作业管理控制系统是ETL(Extraction-Transformation-Loading)工具的其中一种,该工具下还包含其它软件厂商的诸多产品。例如:OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator)、Informatic PowerCenter等,在此不一一列举。该软件是将源数据通过抽取,转换,加载的自动化方式把其变为数据仓库下的数据,它是BI(Business Intelligence)领域对数据处理的核心和灵魂。通过该

27、工具的使用把来自不同平台、不同系统、不同业务领域的数据过滤、清洗,变为统一格式后将其存放到数据仓库或数据集市,以便后续联机分析处理和数据挖掘的应用 贾自艳,黄友平,罗平等. 面向数据质量的ETL过程建模与实现J.系统仿真学报,2004(5):25-29.。电信行业竞争对手数据源目前来自企业内部的生产环境,数据的采集目标为用户信息及话单数据日全集。全集数据从生产环境主机中通过定时的FPT功能上传到经营分析系统主机,上传话单的格式为文本文件的格式,记录通过“|”的分隔符予以区别。上传的目录通常为定义好的层名称,比如把数据的话单层定义为CDR或者PRT,对应的UNIX系统主机目录名称便于该层名称一致

28、。中间层定义为MID,对应的目录名称与其一致。如此设置是为便于管理控制平台与操作系统之间建立直接地映射关系,上传的话单均位于话单层,在普莱斯特模型中为模型最底层的数据。该类型数据也被称为基础数据,中间层的统一视图模型和用于数据集市的报表追根朔源均来自于基础数据 王新英,陈语林. 数据抽取、转换、装载综述J.企业技术开发,2004(8):3-5.。此类文本格式文件需要加载到数据仓库中以便进行数据的后续处理。NCR的作业管理控制系统是通过JAVA语言开发完成,可以在不同的操作系统下运行。其主界面如图2.2所示:图2.2 NCR作业管理和控制系统该系统中的数据采集是通过调用由Perl加Sql语言组成

29、的程序来完成数据从UNIX系统下文本格式文件向数据仓库加载。Perl程序担负操作系统与数据库之间的通信连接,Sql则完成文件与数据模型对应的字段记录的加载。因为在数据仓库当中对数据的处理是按线性方式进行的,所以通常对加载程序的命名是通过程序名称加序号来完成的,以体现数据处理的顺序。系统提供作业配置功能,可以配置新的作业,其作业名称与新模型名称一致,通常将其配置在对应的层次下(层次为逻辑结构中虚拟出的),层次加作业名称的组合可对应到UNIX系统下的目录加文件名称。新作业定义完成后便可从粗到细地来设置作业如:自动调用类型(按月或日)、调用时间、依赖的关系、调用前的初始化状态等信息。完成以上作业的配

30、置后,新作业或已修改作业便可按照配置内容由系统自动调用并完成其对应功能。系统提供日志查询功能,可以辅助管理人员查询作业完成情况,通过日志可以对问题作业做出及时调整。2.2 Teradata SQL Assistant开发平台Teradata SQL Assistant是TD公司提供的针对数据仓库SQL语言的开发环境, 该平台为开发、测试、维护人员提供与数据仓库通信的服务。通过设置数据仓库的连接方式、用户名、口令、主机节点等信息完成初始化操作,与程序相关的开发测试维护工作都是在该平台下进行。竞争对手分析系统可以按不同的主题域业务来进行区分,对应的处理逻辑也大相径庭,但所有和业务相应的SQL逻辑均

31、需要通过Teradata SQL Assistant 来完成。该开发平台界面如图2.3所示:图2.3 Teradata SQL Assistant开发平台说起Teradata SQL Assistant工具,务必简单介绍一下TD数据仓库。竞争对手分析系统的后台数据仓库使用的便是Teradata数据仓库。Teradata是全球专门致力于数据仓库、企业级数据分析的仓库厂商。其具有如下特点:1.公司的RDBMS可以运行于单个或多个节点。2.并行的处理TB数据量级的记录3.有多个客户端的单一数据库服务器4.具有不同级别的硬件和软件容错能力5.采用网络拓扑结构的连接方式提供OLAP服务6.采用的是工业标

32、准访问语言(SQL)7.可应用于UNIX与NT的开放式系统平台 戴邵红,古春笑,权毅. 基于Teradata应用工具的ETL策略设计与实践J.机械化工程与自动化,2009,6(1):65-69.。2.3 报表制作平台CognosCognos提供强大的报表制作和展示功能,通过Web界面的部署和管理可以有效的降低成本,用户可以制作基于不同源数据的统一视图或是应用于数据集市的报表模型。通过设置可以完成自定义报表的灵活操作,设置不同的维度和指标可展现多样化、多层面的数据报表,使用Query Studio组件可进行即席的开发查询工作。而且Cognos具有数据挖掘中的钻取、切片、切块、旋转等特别功能,使报

33、表专题的分析和管理人员可从不同的角度,不同的方向对来自多个方面的数据源进行一致、高速、有效的访问,使用户获得待了解主题域的更加多样的情报。将不同的信息关联起来或是模型之间建立相互联系(比如事实表与维表的关联),都可以帮助我们从宏观的角度对数据进行全面的分析,从整体来了解情况,做正确的决策 张雪松. 基于Cognos的商业智能系统设计和实现J.计算机光盘软件与应用,2010(4):15-19.。目前竞争对手分析报表便是经过Cognos平台发布的,分析人员可以通过调整不同的维度和指标来建立相应的专题报表,按不同颗粒度从粗到细的调整完成相应维度的数据分析。对于已发布的专题报表,可以使用Cognos自

34、带的Framework Manager来进行数据源和模型的管理。2.4 本章小结本章首先介绍当前生产环境中竞争对手系统的现状,之后把与之相关的主流软件平台或工具进行简单的介绍,总结当前环境中的各种应用程序的目的是为后续章节的各个功能点划分做好准备工作。第3章 竞争对手分析系统的需求分析在当前电信企业竞争激烈的背景下,中国电信市场进入前所未有的全业务竞争时代。无论是在渠道管理、终端管理或是细分市场管理等各个方面,竞争对手的信息重要性愈来愈凸显出来。面对激烈竞争的市场,除提高本身的服务质量外,竞争对手信息收集和分析已经是目前市场竞争中,提升企业自我综合竞争力必不可少的重要手段。电信重组后各公司面临

35、着巨大的竞争压力。从2G竞争情况来看,各个公司与对手的网络、产品、业务趋于同质化,而在资费上无线业务发展比较好的公司,由于之前占据市场份额大,在定价上有话语权,所以还存在一定的溢价,因此在重组后使其它竞争对手在这方面具有一定的优势;特别全业务运营后,对于刚获得固网牌照的电商,其竞争对手由于已有很大的固网市场,客户数量庞大,所以极具优势,并以此来通过捆绑策略,抢夺客户资源; 于此同时政府监管部门还实施严格不对称监管政策,于是各个公司面临更加恶劣的行业环境 张中月. 论中国电信市场竞争策略J.边疆经济与文化,2004(3):82-88.。所以当前激烈的竞争环境对竞争信息的分析和应对提出了更高更多的

36、要求。3.1 竞争对手分析系统现状以某运营商省级分公司为例,没有自身独立的竞争对手分析系统,其竞争对手分析主题域的数据集合是与其它诸如家庭网,校园网,账户用户等全业务数据混合在经营分析系统中做为主题域子集并由若干数据模型体现的。另外系统所针对的实际用户无论是新老系统基本没有变化。如图3.1所示:图3.1 竞争对手分析系统用户集目前该经分系统对于竞争对手分析主题数据的处理存在如下问题:1. 与来自业务系统内部或外部的各数据源所产生的信息混合在一起,并没有独立出来。信息辨识度低,查询、管理工作比较繁琐。2. 对于电信运营商超大规模的数据量而言,某个用户类模型的数据量轻易可以过千万条,而且与之类似的

37、数据模型又有很多,但竞争对手的数据模型显然没有如此之大的数据量。如果以日时间为维度,要求每天对竞争信息进行分析的话,竞争对手模型与此类大数据量模型一起并发处理则可想而知及时性必会大大折扣。3. 目前对于竞争对手的数据来源大部分是以日来计算,但其实某些模型是不用细化到日周期,而可以按月或周的周期来统计。为什么不把提取修改成月方式呢,究其原因是因为日数据源当中不仅涉及到竞争对手信息,同时仓库中的其他主题域的模型也会用到此类数据源且所占比例相当之大。鉴于有此类情况,所以必须按日来提取。与竞争对手主题域的模型数据源信息量相比,其它模型的所需的数据量占比才更大,更耗费资源的。于是在提取竞争对手数据源信息

38、的效率上肯定会受到影响,有时由于系统需求必须在同一个数据量很大的数据源中提取相关内容,那自然也会增加其效率低下和系统的高负荷的可能。4. 目前对于竞争对手模型的管理和维护是与其它模型混合在一起的。数据从提取,转换,过滤到加载后的展示都是通过不同的系统来完成。由于跨多个平台,其复杂度较高,而且对于越来越重要的竞争对手分析需求,所涉及到的数据规模也会与日俱增,如果可以有单独的系统进行数据分析和处理则对于用户而言在使用上更方便,另外对于竞争对手主题域也可以有针对性的进行后续的二次开发、升级维护。 差异如表 3.1所示: 表3.1 新旧系统对应表角度系统现状新系统系统独立非独立模式(分布在经营分析系统

39、按主题域体现)独立模式(包括与竞争分析的全部专题)系统组成采集平台、作业管理控制平台、报表平台组成全部功能统一在竞争对手分析系统用户管理各平台用户管理都不相同统一管理系统中用户登陆使用不同平台间需要多次登陆且用户身份大不相同用户登陆一次即可使用多种功能源数据管理全业务混合在一起,管理效率低独立的源数据,效率高 续表3.1角度系统现状新系统数据分析1.竞争数据分析模型数量少 增加新的分析模型提高业务覆盖率2.数据分析运行效率低 单独系统运行效率高3.报表数据覆盖面小报表数据指标范围更广4.数据颗粒度较粗 数据维度颗粒度细化5.层次结构模糊层次结构清楚数据建模数据库客户端建模一次性完成,无事实表维

40、表对应关系页面建模一次性完成,有对应关系报表维护直接登录数据库或Unix主机页面上传新程序数据采集采用内部采集方式,从生产系统进行采集采用内外两种方式,从生产系统和营业采集3.2 源数据采集的需求分析基础层的数据收集依赖的是对已知的、来自不同外部或内部的源数据所进行的多点采集工作。源数据的范围有两个方面,通常为来自各种途径的信息集合,比如政府法规、媒体宣传、客户访问的外部数据以及来自企业内部生产环境中现存的,各个系统的内部数据。源数据采集的目的是将来自不同系统或环境的异构数据进行过滤、清洗、加载等,把不同类型、内容、格式的数据转化为数据仓库中符合规定要求、约定俗成的规范数据。并把其视作数据分析

41、前最基础、最详细的部分。如果把数据分析的成果比作一座竣工的摩天大楼,那么采集到的源数据就是这庞大工程的基石,收集到的每一条记录或信息如同基石的一砖一瓦,数据采集中使用的各种方法如过滤、清洗等的目的就是如何把这一砖一瓦紧密、规范的联系起来。所以数据采集可算是数据分析中最初,最基础,最重要的一环,做好这一步的工作对之后数据分析的成败将起着决定性的作用。由于数据来源渠道多样性,数据采集对象缤纷繁杂,所以我们在采集范围的划分上是从宏观角度下出发的。竞争对手分析系统的源数据范围主要划定的是来自内部和外部的两种渠道。如图3.2所示:图 3.2 内外源数据采集 1.外部渠道的收集工作是通过电信企业内部的一线

42、工作人员(主要是由营业员、客户经理、客服人员等)对各类新闻报道,竞争对手宣传彩页,报纸或杂志的信息收集并手工将其内容录入到系统当中完成的。外部源数据特点是数据涉及内容广泛、题材众多、有一些是内部源数据无法获取的信息(比如竞争对手的资费内容,品牌认知度等)。对于从多个方面进行的数据分析来说,外部源数据可以起到拓展分析范围、建立特殊分析需求的作用(比如竞争对手资费推演等功能),但同时由于采集的内容所选取的是手工录入方式,其特点是信息的采集效率相对内部数据采集要低很多,且录入的错误情况也是时有发生,这些未知的因素对分析系统的数据量和精确性多少会有一定影响 杨天奇,周晔. 一种增量式并行Web信息采集

43、方法J.计算机工程,2006(20):1-3. 。2.另一种是内部渠道的数据采集。所谓内部是指的某个电信运营商公司的内部生产系统,通常生产系统会集合多个系统平台(如营业系统、账务系统、经分系统、MIS信息平台、集团公司信息平台接口等)。不同的系统平台提供的源数据千差万别,涉及的主题也大不相同。营业系统提供前台的各种营业功能以及相关数据,账务系统则包括基本的日收入、月收入、业务量等各种信息,经分系统则提供各类信息的汇集结果和数据的起伏趋势等。我们现在完成的分析系统的很大一部分数据依据就是来自这些内部系统中各不相同、包罗万象的源数据。通过将这些跨平台的数据采集后,归入数据仓库中以便使用。整个数据采

44、集的流程如图3.3所示:图3.3 数据采集流程 但内部数据的采集也会存在各种问题:1.源数据冗余度较大由于电信行业本身用户基数大,通常按行政单位的级划分,用户数量都在上千万条以上,这些用户衍生出的用户信息、话单信息、费用信息更是随着时间呈几何式的增长。为提高数据在系统中的处理效率,通常我们会采取冗余式的存放方式将其置于数据库中,目的是为减少一些表表连接,子查询等,提高系统的运行效率。但若是从这样的生产环境中原样采集过来冗余度较高的数据直接使用,就会导致分析系统资源耗费严重,系统负荷巨大的情况,严重情况下会导致死锁频发,系统宕机等一系列更大问题。2.源数据采集顺序来自于同一或不同系统平台的数据在

45、分析系统中的使用有先后次序或者其相互之间存在调用关系。通常源数据的调用具有多样性,存在一对一、一对多、多对多的情况。举例一对一的情况如图3.4所示,进程1与进程2都担当数据采集的工作,进程1负责营业系统用户信息采集,进程2负责账务系统用户费用采集。有条件要求进程2在采集费用数据的同时需要有进程1完成的用户采集结果来加以辅助处理,用以说明哪些用户是对应怎样的具体费用。此时如果在进程1没有完成采集的情况下,进程2开始进行,则会出现两进程数据无法对应或部分匹配的情况。此时进程2完成所得的结果集是不完整的。这样的基础数据不利于后续的数据挖掘分析工作,而通过采集到的数据所做的分析工作和其得到的最后结果或

46、报表内容很有可能是错误的,我们以错误的结果当依据来制订未来企业发展的方向,其后果不言而喻。所以源数据是否按顺序采集是必须重点关注的。图3.4 进程处理顺序3.源数据的格式对于内部源数据而言,竞争对手分析系统所采集的数据来自于不同的生产系统之中,系统之间建设时规范不同,编码也不会相同,对当时所建立的实体要求也不一样。对于外部源数据来说,系统在出现问题或是人员数据录入的时候,都可能会出现错误,如果这时生产系统未做数据规范的限制,采集到的也一定是有问题的记录。另外实际环境下还有一种情况:在采集的过程中,生产系统中的源数据是文本格式的,如图3.5所示。数据库往文本格式转换,或文本格式往数据库格式转换的时候,由于文件中内容的长度与对应的字段长度在设置上或定义上不一致,就可能出现数据被截断或中文乱码的问题,这时如果记录条数过大,就会非常影响模型整体的数据质量,在后续的使用中将问题字段作为连接条件,则表表之间无法建立关联,影响之后的分析工作。所以通常在采集的同时,或数据采集之后,需要有数据清洗或过滤的动作,来保证数据的规范性和可靠性。 图3.5 生产系统源数据格式3.3 源数据逐层

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公文档 > 其他范文


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号