《人口统计项目解决方案说明书.docx》由会员分享,可在线阅读,更多相关《人口统计项目解决方案说明书.docx(11页珍藏版)》请在三一办公上搜索。
1、人口统计项目解决方案说明书XX科技股份有限公司编制目录一、项目存在问遨及需解决问应1.存在问SS2,需解决问造二解决方案51 .蜂决方案架构52 .关键技术6三、开发范困91.数据生产92 .数据采集/消费93 .数据分析104 .数据展示11一、项目存在问题及需解决问题1 .存在问题传统人口统计需要投入大量的人力和物力且组织工作较为繁重。同时,不能进行实时统计,人口普查间隔周期过长,数据容易失去连续性。随着时间推移,数据分析的准确性也有偏差,影响人口工作决策。传统的人口统计主要有以下几个方面的难点。统计周期长随着人口数量的增加、人口流动性的增大,传统的人口数据采集更加困难,且在统计过程中所耗
2、费的时间、人力、物力也相当可观。从1949年至今,中国分别在1953年、1964年、1982年、1990年、2000年与2010年进行过六次全国性人口普查。人口普查每10年进行一次,第六次人口普查大致划分为准备阶段、入户调查和受查阶段、数据汇总和资料开发利用阶段等三个阶段,共历时45个月。资源耗费巨大2010年第六次人口普查,中央政府和地方政府安排80亿元左右的预算资金,借调和招聘超过600万名普查人员。政府为何要投入如此大的力量呢?因为人口统计对国家意义重大,对老百姓来讲也非常重要,是国家制定经济、社会等各项政策的最基本依据,关系到公共设施的建造及社会保障体系的建设、就业岗位的提供和基本公共
3、服务均等化的推进等。尽管有充足的投入和支持,在第六次人口普查中依然存在流动人口多、人户分离现象普遍、入门较难等很多挑战。质量控制难度高由于人口统计工作量大可能导致调查的精确度下降,调查质量不易控制。调查过程中可能会出现瞒报漏报、调查内容有限等问题,易产生重复和遗漏现象.从而影响统计数据的真实性;加之时间的推移和人口流动迁移等因素,也促成了部分指标统计误差较大、数据参考价值降低的情况。尽管有人口信息资源,但目前在人口信息资源的管理方面还不完善,数据统计路径不一致、数据失真现象严重,数据共享机制不健全,致使人口数据在实际应用中发挥的作用十分有限I)数据不可跟踪人口抽样会遇到涉及面窄、翔实数据信息难
4、获得、外来人口信息资源严重缺乏等问题。传统人口统计数据不具备时效性,不能满足事前预测的需求,无法有效避免一些危机情况发生。传统统计数据关联性不高,没有连续性,无法追踪行为轨迹,关联社会关系。传统的人口抽样统计方式如同一潭湖水,是静止的,而人是动态的,因此传统人口统计方式缺少灵活性及可延伸空间。2 .需解决问题来自电信运营商的真实数据更灵活、个性化。人口统计通过对海量的电信数据进行挖掘分析,基于可靠的建模技术构建人口统计模型、人口分类模型、业务识别及分析模型、消费行为聚类分析模型等,在业内处于领先水平。这些海量数据是传统人口调查需要耗费巨大付出才能收集到的,且具备相当高的真实度。现在通过大数据可
5、以用相对低的成本得到更加丰富、更多维度的数据分析。构建具备长效机制的数据生态平台。人口统计平台是随着时间、条件的变化而不断丰富、发展和完善的可持续发展平台。它如同一个数据的大水库,开源节流,不断注入新数据,给出更精准的数据分析。人口统计平台可以随着需求不断升级,融合多维度数据,创新出更科学的分析技术。人口统计在求变中确保稳定的大数据分析支持,在推动自身升级发展的同时,也推动了行业的变革与发展。人口统计电信运营商提升数据价值,将数据价值转化成为可应用的数据解决方案,让政府、企业突破传统数据统计的束缚,进入大数据应用的新时代。二、解决方案1 .解决方案架构我Ie展示成任务调A与总控系统开发平台使用
6、Hadoop大数据开发平台。Hadoop是一个高度可扩展的存储平台,可以存储和分发横跨数百个并行操作的廉价的服务器数据集群。能扩展到处理大量的数据,能提供成百上千TB的数据节点上运行的应用程序。HadooP能够有效的在几分钟内处理TB级的数据。相比关系型数据库管理系统更具有优势。它适用于任何规模的非结构化数据持续增长的企业,将帮助用户持续提高用户体跄。系统采用面向对象的软件设计方法,把整个系统看作是多个离散对象的组合。系统设计时,首先把业务流程分解成功能模块及其业务实体对象,然后根据业务流程分析对于这些业务实体对象的操作方法,形成业务处理对象,最后把各个功能模块关联起来,形成系统。软件设计是一
7、个将需求转变为软件的过程,系统通过逐步求精使得设计陈述逐渐接近于源代码。系统程序采用MVc的设计思想,将展现逻辑、控制逻辑、业务处理逻辑分离。系统采用参数化的设计思想,定义和管理系统的实体及配置,调整实体以适应外部变化。系统采用J2EE技术保证程序逻辑实现的平台无关性,并便于安装部署。系统采用AJAX技术,提高客户操作的交互性,保证实际使用的易用性。系统采用echarts可视化框架实现数据展示。2 .关键技术(1) )HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。(2)
8、 SpringMVCSPringMVC:属亍SpringFrameWork的后续产品,巳经融合在SpringWebF1.oW里面。Spring框架提供了构建Web应用程序的全功能MVC模块。(3) MyBatiSMYBatis:是支持普通SQ1.查询,存储过程和高级映射的优秀持久层框架。MyBatis消除了几乎所有的JDBC代码和参数的手工设置以及结果集的检索。MyBatis使用简单的XM1.或注解用于配置和原始映射,将接口和Java的PojOS(P1.ainO1.dJavaObjects,普通的JaVa对象)映射成数据库中的记录。(4) EchartsECharts是一款基于Javascri
9、pt的数据可视化图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表。(5) MySQ1.MySQ1.是一个关系型数据库管理系统,由瑞典MySQ1.AB公司开发,属于OraCIe旗下产品。MySQ1.是最流行的关系型数据库管理系统之一,在WEB应用方面,MySQ1.是最好的RDBMS(Re1.ationa1.DatabaseManagementSystem,关系数据库管理系统)应用软件之一。MySQ1.是一种关系型数据库管理系统,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。MySQ1.所使用的SQ1.语言是用于访问数据库的最常用标
10、准化语言。MySQ1.软件采用了双授权政策,分为社区版和商业版,由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,一般中小型网站的开发都选择MySQ1.作为网站数据库。(6) Hivehive是基于HadooP构建的一套数据仓库分析系统,它提供了丰富的SQ1.查询方式来分析存储在Hadoop分布式文件系统中的数据:可以将结构化的数据文件映射为一张数据库表,并提供完整的SQ1.查询功能;可以将SQ1.语句转换为MaPRedUCe任务运行,通过自己的SQ1.查询分析需要的内容,这套SQ1.简称HiveSQ1.,使不熟悉mapreduce的用户可以很方便地利用SQ1.语言查询、汇息和分析
11、数据。而mapreduce开发人员可以把自己写的mapper和reducer作为插件来支持hive做更复杂的数据分析。它与关系型数据库的SQ1.略有不同,但支持了绝大多数的语句如DD1.、DM1.以及常见的聚合函数、连接查询、条件查询。它还提供了一系列的:具进行数据提取转化加载,用来存储、杳询和分析存储在HadOOP中的大规模数据集,并支持UDF(User-DefinodFunction)、UDAP(User-DefnesAggregateFunciion)和UDTF(User-DefinedTab1.e-GeneratingFunction),也可以实现对map和reduce函数的定制,为数
12、据操作提供了良好的伸缩性和可扩展性。(7) HBASEIIBase-HadoopDatabase,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBaSe技术可在廉价PCServer上搭建起大规模结构化存储集群。(8) ZookceperZooKeepcr是一个分布式的,开放源码的分布式应用程序协调服务,是GoOgIe的ChUbby一个开源的实现,是HadOOP和HbaSe的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。(9) F1.umeF1.Ume是CIoUdera提供的一个高可用的,高可靠的,分布式的海量日志采
13、集、聚合和传输的系统,FIUme支持在日志系统中定制各类数据发送方,用于收集数据;同时,FIUme提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。三、开发范围1 .数据生产对于该模块的业务,即数据生产过程,一般并不会让你来进行操作,数据生产是一套完整且严密的体系,这样可以保证数据的安全性。但是如果涉及到项目的一体化方案的设计(数据的产生、存储、分析、展示),则必须清楚每一个环节是如何处理的,包括其中每个环境可能隐藏的问题;数据结构,数据内容可能出现的问题。2 .数据采集/消费数据采集模块(消费),在企业中你要清楚流式数据采集框架f1.me和kafka的定位是什么。我们在此需要将实
14、时数据通过f1.ume采集到kafka然后供给给hbase消费。f1.ume:CIOUdera公司研发适合下游数据消费者不多的情况;适合数据安全性要求不高的操作;适合与Hadoop生态圈对接的操作。kafka:Iinkedin公司研发适合数据下游消费众多的情况:适合数据安全性要求较高的操作(支持rep1.ication);因此我们常用的一种模型是:线上数据一f1.umekafkaf1.umc(根据情景增删该流程)HDFS线上数据一f1.umekafkaSparkstreaming实时流式处理消费存储模块流程图:3 .数据分析我们的数据巳经完整的采集到了HBaSe集群中,这次我们需要对采集到的数据进行分析,统计出我们想要的结果。注意,在分析的过程中,我们不一定会采取一个业务指标对应一个mapreduce-job的方式,如果情景允许,我们会采取一个mapreduce分析多个业务指标的方式来进行任务。分析模块流程图:4.数据展示数据展示模块流程图: