大数据环境监测云平台解决方案.docx

上传人:小飞机 文档编号:3839374 上传时间:2023-03-24 格式:DOCX 页数:53 大小:6.90MB
返回 下载 相关 举报
大数据环境监测云平台解决方案.docx_第1页
第1页 / 共53页
大数据环境监测云平台解决方案.docx_第2页
第2页 / 共53页
大数据环境监测云平台解决方案.docx_第3页
第3页 / 共53页
大数据环境监测云平台解决方案.docx_第4页
第4页 / 共53页
大数据环境监测云平台解决方案.docx_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《大数据环境监测云平台解决方案.docx》由会员分享,可在线阅读,更多相关《大数据环境监测云平台解决方案.docx(53页珍藏版)》请在三一办公上搜索。

1、环境监测云平台解决方案目 录1项目背景31.1背景概述31.2需求分析32总体设计42.1逻辑架构设计42.2物理拓扑设计62.3平台主要功能设计73前端数据采集设备93.1水质因子数据采集设备93.2土壤因子数据采集设备103.3空气污染因子数据采集设备113.4室内PM2.5、甲醛数据采集设备123.5室外PM2.5数据采集设备144数据网络传输144.1物联网无线通信144.2高并发实时数据接入165中心大数据云平台165.1万物云平台165.1.1万物云架构165.1.2平台优势分析185.1.3数据整合195.2cStor云存储平台205.2.1云存储架构205.2.2平台优势分析2

2、15.2.3数据管理模块225.3cProc云处理平台245.3.1云处理架构245.3.2平台优势分析255.3.3数据立方技术275.4DataSense数据挖掘平台295.4.1数据挖掘架构295.4.2数据挖掘功能305.5环境云承载平台366平台主要应用功能376.1常用功能及展示376.1.1GIS地图展示376.1.2常用报表功能(日报、周报、月报等)386.2基于实时预警的环控应急处置426.2.1空气质量监测426.2.2空气质量发布426.2.3空气质量预警436.3基于数据挖掘的污染源追踪446.3.1污染物演化预测446.3.2污染物数据追踪456.4基于数据管理的辅助

3、决策456.5移动终端服务467案例分享487.1PM2.5云监测平台487.2城市市千灯镇环保空气在线监测平台497.3江苏省环境监控系统固定风险源视频监控联网集成及存储设备498预期效益518.1经济效益518.2社会效益519联系我们531 项目背景1.1 背景概述随着空气污染程度日趋严重,公众对于空气质量的关注度不断提升,由于数据信息化工作仍处于低端水平,使得空气质量的监测重要性日益突出。针对环境的监控和治理需求,南京云创大数据科技股份有限公司打造的“环境监测云平台”,实现对环境质量的全面管控。“环境监测云平台”通过特征因子传感器结合最新云技术监测系统,既能够解决资金投入问题,同时满足

4、一定的测量精度,构建前端高性价比的空气、水质、土壤等环境质量特征因子采集设备和中心端大数据云计算支撑平台,为环保部门、高校企业等应用场所提供完善的应用服务、技术支撑、预测预警、辅助决策等功能,更好地为环境质量的保护与治理贡献力量。1.2 需求分析结合当前环保监测实际情况,目前 “环境监测云平台”主要需求如下: 前端数据采集主要包括:室内PM2.5、甲醛等,室外PM2.5、空气污染因子、水质情况、土壤污染等大量不同种类的数据; 平台在大数据的基础上,建立对数据的深入分析和挖掘体系,为整体平台做最优化支撑; 针对目前应急管理制度,缺乏有利的数据支撑,需要建立基于技术手段的污染预警和预测机制; 支持

5、多终端访问,图形化展示各类空气质量数据,支持实时数据展示、历史数据呈现、大数据应用体验等功能; 接口协议标准开放,可以轻松与第三方现有应用对接集成,便于横向和纵向的扩展。2 总体设计2.1 逻辑架构设计“环境监测云平台”方案着眼于环保大数据相关领域,包括环保大数据的采集、存储、处理、挖掘、展示等。采用“互联网+环保”的思路,解决方案总体架构如下图所示。总体逻辑架构图整个架构由四层组成,从下往上依次为:数据源:本层是环保数据的采集,包含现有业务系统数据的抽取、环境监测站的数据、部署大规模的环境传感器的数据、PM2.5传感器数据、水质监测站数据、土壤传感器数据、人工现场采集数据、移动监测仪数据、以

6、及视频数据等。物联网技术已经比较成熟,在环保行业已有大量应用,我们建议在现有范围内更大规模部署环境监测传感器。云平台层:本层包含解决海量环保数据存储问题的分布式云存储平台,环境云、万物云平台,以及实现IaaS、PaaS甚至SaaS功能的云计算平台等。可以将省、市、区县各级的环保业务应用系统部署在统一的云计算平台上,实现业务系统的快速部署上线,实现资源弹性供给,有效降低总体拥有成本。万物云提供海量实时传感器大数据托管服务,实现了大规模物联网传感器的实时数据传输、处理、存储、数据挖掘等功能。万物云平台支持主流的HTTP、MQTT等协议使得传感器通过无线网络将数据可靠传输到平台服务器,用户可在这些协

7、议的基础上实现传感器与万物云的互联,为用户提供一个涵盖数据采集、可靠传输、大数据存储和处理的完整解决方案。大数据层:本层实现了基于数据立方技术的大数据库,基于分布式技术的大数据的挖掘、分析,该层主要对各类数据进行处理分析,为业务应用层提供服务。数据立方是一种高效分布式海量数据的云处理软件,具有从TB至PB级的数据中挖掘出有用的信息并进行快捷、高效处理的能力,同时支持数据仓库存储和商业智能分析等业务。目前已大规模商用。在中国联通某省安全生产运行了三年,仅用了400多台服务器,就支持了1亿手机用户形成的15Gbps的信令数据流的实时处理,每天新增100亿条记录。应用层:环保业务应用包含了已有或新建

8、的各类业务应用系统、门户网站、移动业务、App等。应用层提供了不同角色人员(公众、企业、专家、环保部门等)获取环保信息、服务环保事业的窗口。互联网技术,特别是移动互联网在环保产业中的广泛深入应用,对于促进环保信息公开、激发公众参与环保、促进环保事业快速发展有着积极作用。建议将更多的信息向公众开放,将更多的功能提供给公众、企业。通过多种渠道、方式汇集的海量环保数据如何实现高效、低成本存储,如何对海量环保数据进行快速处理分析,从海量数据中挖掘有用有价值的信息,对信息价值和保密级别进行分类等,这些依赖于大数据的存储和大数据处理技术。本方案主要涉及环境数据采集、环保大数据存储、环保大数据的处理分析以及

9、智慧环保新应用。存储采用云创自主创新的cStor分布式存储,它可以支持PB级甚至EB级海量数据的存储;大数据处理分析采用云创数据立方,实现海量环保数据的快速处理;大数据挖掘采用云创DataSense分布式数据挖掘技术对海量环保数据进行深度挖掘。通过大数据技术促进环保行业的创新发展,充分利用环保大数据,挖掘其价值,促进环保大数据的广泛、深入应用。2.2 物理拓扑设计整个“环境监测云平台”是基于云计算分布式架构,利用最新的大数据技术而设计规划的,主要包括前端数据采集设备、环境监控云平台和客户端等相关模块,具体架构如下图所示:“环境监测云平台”总体架构图在进行“环境监测云平台”设计时,主要结合当前环

10、保现状,重点考虑到了以下几点:1、前端数据采集包括内容涵盖主要的空气、水质、土壤相关环境数据,针对室内主要有PM2.5和甲醛,针对室外主要有PM2.5和其他大气污染因子(如:H2S、 NH3、 NO2、SO2等);针对水质主要是有水质监测(如:COD、氨氮、总磷、总氮、六价铬、总铬、pH值、悬浮物、浊度、溶解氧、氰化物等)和水雨情监测(如:雨量、水位、流量等);针对土壤主要是土壤情况的监测(如:光照、湿度、温度、pH值、土壤硬度等)。2、鉴于系统可扩展性考虑,“环境监测云平台”提供开放性的标准接口,需要与第三方平台进行对接;3、“环境监测云平台”为统一监测平台,平台的数据量会随着时间和平台的不

11、断拓展而逐渐增多,所以要求底层大数据库和存储系统采用云计算分布式架构,以具有优异的横向平滑扩展性;4、“环境监测云平台”具有良好的用户体验,支持PC客户端、手机客户端、平板客户端等多终端用户的访问使用。2.3 平台主要功能设计(1)实时数据入库实时数据入库主要负责部署所有监测点产生的各类空气、水质、土壤环境因子数据实时存到监测平台数据存储中心。 (2)数据存储海量原始数据,将全部存储在“环境监测云平台”的分布式文件系统中,用于大数据存储。为了满足和适应数据量、数据特征和查询处理的不同需求,部分存储于关系型数据库中。(3)数据查询应用数据查询分析应用提供包括实时监控,查看历史记录和分析数据等功能

12、。历史查询处理时,由于数据量巨大,需要调度使用云计算技术管理多台服务器节点进行并行处理。(4)实时预警对环境各个指标设置对应的域阀值,超过该值超过一分钟等就第一时通过邮件,App推送,或者短信等形式通知行政执法人员,给管理部门迅速出动,及时阻止破坏环境保护的行为。(5)数据管理在实际使用中,可能用户会对某一时间段或者类型的数据特别关心,就可以通过数据管理系统查询并导出这部分数据以供使用。(6)数据挖掘分析通过大数据分析挖掘,对海量环保数据进行深度学习和应用挖掘,进行一定的分析研判,预测应急,辅助领导决策。(7)开放接口平台对外提供标准化开放接口,支持第三方平台对接调用。3 前端数据采集设备3.

13、1 水质因子数据采集设备水质监测系统主要包括水位计、超声波流量计、多参数水质分析仪、数据采集遥测系统、供电系统、监控管理软件等几部分组成。水位计、超声波流量计和多参数水质监测设备实时采集各项水质参数,通过遥测单元,将数据实时报送给监控中心或移动监控终端。在组站上有地面站和浮标站等多种灵活的组站方式,通讯方式支持短信/GPRS、有线、卫星等多种模式。系统工作主要按三种方式来触发,系统的定时触发、系统增量触发和系统查询应答。水质因子数据采集设备组成示意 水质因子数据采集设备的主要特点有:1、 采用国际先进的监测、分析及控制技术,达刭国际先进水平,并能够通过升级保持先进性及各项技术的稳定性、成熟性;

14、2、 同时需满足现场操作简单扼要,易于运行维护及错误判断等要求,可靠性设计始终被放在优先考虑的位置;3、 设备设计从多方面保证系统的安全性,包括设备对故障的良好恢复能力,设备数据的安全以及操作的安全;4、 具有良好的兼容性和可扩展性,轻松实现后续新设备的添加;5、 使用便捷,操作简单,易于管理;6、 设备采集上报数据接口标准化,便于与其他应用系统对接。3.2 土壤因子数据采集设备通过对影响土壤环境质量因素的代表值的测定,确定环境质量(或污染程度)及其变化趋势。我们通常所说的土壤监测是指土壤环境监测,如:光照、湿度、温度、PH值、土壤硬度等等,其一般包括布点采样、样品制备、分析方法、结果表征、资

15、料统计和质量评价等技术内容。土壤监测设备外观图图为土壤监测传感器土壤监测传感器方便于土壤多环境的测量研究,具有携带方便,密封,高精度等优点,是土壤监测测量的立项选择,其中土壤温度部分是由精密铂电阻和高精度变送器两部分组成。变送器部分由电源模块、温度传感模块、变送模块、温度补偿模块及数据处理模块组成,彻底解决铂电阻因自身特点导入的测量误差,变送器内有零漂电路和温度补偿电路,对使用环境有较高的适用性。土壤采集设备的特点有:1、本传感器体积小巧化设计,测量精度高,响应速度快,互换性好;2、密封性好,可直接埋入土壤中使用,且不受腐蚀;3、实时温度监测功能,可测量不同深度土壤的温度;4、土质影响较小,应

16、用地区广泛;5、测量精度高,性能可靠,确保正常工作,响应速度快,数据传输效率高;6、价格低廉,适合中国国情。 3.3 空气污染因子数据采集设备在存在空气污染和安全隐患的区域,部署空气污染因子气体采集监测设备,监测污染和危险气体的含量,中心云计算平台可以查询空气质量实时和历史数据,设备架构图如下所示: 空气传感器采集架构 设备安装部署图如下所示:空气质量监测箱外观图 内部实体图如下所示:气体监测箱内部图每个气体监测箱内部可部署不超过4种的气体采集模块,例如:H2S、 NH3、 NO2、SO2、可燃气体等,根据实际部署区域需要,可按需调控增减模块数量,构建适宜的前端气体监测箱。除了气体监测设备外,

17、如果有需要,也可以提供水质、土壤、微生物、电磁、固废、辐射、噪音等相关的前端传感采集设备。3.4 室内PM2.5、甲醛数据采集设备当今社会空气污染日益严峻,人们的对环保的认知也逐步提升,愈发关注环境问题,尤其是自己生活区域的空气质量。比如:室内PM2.5是多少?家里家具甲醛是否超标?装修好的房子什么时候可以入住?新进的家具有没有问题?什么时候可以开窗?空气净化器有没有用?针对这一现象,南京云创大数据给出了很好的解决方式,以极高的性价比让室内的PM2.5和甲醛“看得见”,我们形象地将其称为“环境猫”。“环境猫”外观图作为空气质量监测设备,首先强调的就是传感器的精准度。“环境猫”室内空气监测仪,基

18、于昂贵精准的传感器(核心原材料从英国进口),可以准确测量室内的甲醛与PM2.5。下图显示了云创监测设备与环保厅官方采集数据的长时间对比图:“环境猫”数据准确度对比3.5 室外PM2.5数据采集设备室外PM2.5云监测设备需用到先进的PM2.5传感器。每套监测系统部署多个PM2.5传感器,当任意一个或者几个传感器出现问题,传感器冗余,保证环境监测系统正常运行,保证本监测点的环境监测数据的可重复。室外PM2.5云监测设备外观室外PM2.5云监测设备需主要是由电源模块、采集模块和通信模块组成,前端内部架构具体详见下图:室外PM2.5云监测设备内部架构室外PM2.5云监测设备采用先进的传感器、低功耗单

19、片机技术和网络通讯技术相结合,具有数据存储功能,可提供方便的数据查询方式,通过GSM、3G等通讯方式及时上传环境监测数据。4 数据网络传输4.1 物联网无线通信前端设备的通信基于物联网的方式进行设计,并且考虑到安装设备地点的不可控,传输距离可能很大,同时数据流量一定的情况下,选择GPRS无线通讯方式进行数据的无线传输。具体的数据传输的网络示意图详见下图。物联网无线通信数据传输前端设备通过传感器,采集到相关的数据,数据基于TCP/IP协议,经过GPRS的数据传输,通过移动网络传输数据,利用公网的服务器接受数据,然后将数据进入云平台后,进行数据的处理,最后通过WEB服务器等方式将数据展现出来。注意

20、:每个前端设备有一个供应商的SIM卡进行数据通信,该SIM卡需要有GPRS业务,同时使用的地点必须有供应商的信号。例如使用中国移动的SIM卡,该卡需要有GPRS的业务,同时放置空气质量测试前端的地点需要有中国移动的信号才可以正常的通信。4.2 高并发实时数据接入“环境监测云平台”作为海量环境数据的汇聚平台,支持: 前端数据传输支持数据自动上传及按需上传两种模式,单台服务器并发数据提交处理性能高,可弹性规模扩展 前端服务器,手机同时在线量2000到6000 高并发、低延迟设备数据提交 设备规模支持按需弹性扩展数据采集形式前端采集设备/平台采集的环保监控数据参数通过GPRS等有线/无线方式传送到数

21、据接入服务 ,通过“环境监测云平台”的智能分析处理,将实时的预警信息通过邮件,APP推送,短信提醒等方式发送给行政执法者,通过空气质量监测预警平台与原有的视频监控平台结合更能够及时的摄录破坏环境的违法行为,真正做到执法有依据,违法必究的目的。对海量历史和实时数据的智能分析,最终通过web网页,移动终端展示给最终用户,为客户科学分析环境污染趋势,为决策制和行政执法人员最好环境保护的信息化技术支持工作。5 中心大数据云平台5.1 万物云平台5.1.1 万物云架构万物云提供海量实时传感器大数据托管服务,实现了大规模物联网传感器的实时数据传输、处理、存储、数据挖掘等功能。万物云平台支持主流的HTTP、

22、MQTT等协议使得传感器通过无线网络将数据可靠传输到平台服务器,用户可在这些协议的基础上实现传感器与万物云的互联,为用户提供一个涵盖数据采集、可靠传输、大数据存储和处理的完整解决方案,万物云架构如图所示:万物云架构图万物云底层是分布式海量弹性分布式数据存储和计算架构,在其之上构造了一个面向智能硬件和物联网应用的数据存储和数据处理的服务和业务逻辑层,并提供一个基于HTTP协议的RESTFul应用服务调用接口以及一系列覆盖各主流语言和平台的应用程序编程接口,包括Linux、iOS、Android系统和Java、Python、C#、Scala、PHP、Ruby、Node.js等编程语言。万物云服务按

23、功能可分为数据存储托管服务和数据处理应用服务。数据存储托管服务提供海量、弹性、安全、高可用和高可靠的云存储。数据处理和应用服务提供针对TB/PB级数据、实时性要求不高的分布式处理能力,应用于数据分析、挖掘、商业智能等领域。万物云主界面5.1.2 平台优势分析万物云服务按功能可分为数据存储托管服务和数据处理应用服务。数据存储托管服务提供海量、弹性、安全、高可用和高可靠的云存储。数据处理和应用服务提供针对TB/PB级数据、实时性要求不高的分布式处理能力,应用于数据分析、挖掘、商业智能等领域。万物云主要有如下技术优势:1. 简单易用的综合平台万物云提供丰富并且高质量的文档、代码以及视频帮助用户快速的

24、学习和使用平台,论坛、微博、微信也可以让您方便的得到开发团队的技术支持,同时万物云还为用户提供了丰富的管理工具,对用户的数据进行管理和性能的监控。2. 强大的数据和编程服务万物云平台针对不同的开发语言环境提供智能硬件专用的数据服务接口和丰富的应用编程接口,平台能简单、快速的将智能硬件数据直接接入;用户可以非常方便的把万物云的API集成到自己的应用里,不但可以减少和简化物联网应用端的代码,同时将复杂的物联网数据存储和处理服务交给万物云,能够给更专注于相应的业务开发,提高生产力。3. 高性能的存储查询效率万物云基于分布式存储系统提供的安全、可靠和高效的各项云数据云计算的基础服务,可确保平台向物联网

25、应用提供卓越的数据存取规模和性能。万物云的存储系统支持弹性扩展,用户无需担心存储空间不足。单表PB级别的数据存储,并且支持表结构横向扩展。分布式系统中各存储节点副本数据实时一致,读写性能不会因数据量增加而受影响。性能上现有平台提供毫秒级单行数据读写延迟,数据查询在百万QPS级别,典型数据批量入库性能可达每秒6000条。4. 完善的数据安全体系用户数据安全是物联网数据应用的关键。万物云通过一系列多层次的安全验证和访问权限限制措施保护用户数据,防止丢失和泄露事件的发生。主要包括:用户数据隐私、访问许可验证、用户数据分离、攻击防范机制等。5. 丰富的智能硬件接入支持万物云平台支持主流的数据格式协议和

26、通讯协议,智能设备通过无线网络将数据可靠传输到平台服务器,为用户提供一个涵盖数据采集、可靠传输、大数据存储和处理的完整解决方案。5.1.3 数据整合万物云平台可以整合接入前端海量异构设备或现有平台,规范数据格式,数据整合具有很大的价值也意义。 辅助决策要求环境控制强调的核心主题为“过程控制”,即将数据中心技术与环保决策工作有机结合,实现环保业务工作流程的优化和重组,解决职能交叉多环节重复采集信息的问题,建立公开、透明、实时监控的监管和决策的模式。由此可见,完备的数据中心是环保决策的先决条件,为了做好数据支撑效果,将原有已建环控系统数据整合到现有“环境监测云平台”成了必然之选。 数据共享要求“环

27、境监测云平台”是一个综合的环保决策平台,平台数据服务贯穿各个环保管理部门和业务部门,从而构建了一套“纵向贯通、横向集成、互联互通”信息应用体系,而只有做到将原有零散且相互独立的环控系统完美整合,才能有效建立省、市、区县三级联动的环控监管体系。 数据综合性要求环保信息化集中体现了“跨学科、跨地域、数出多门”等特性,同时,现代环保监管部门又对数据的一致性、决策指导提出了较高的要求,为高效支持前端管理及执法人员,在城市建立一套“跨学科、跨地域、跨平台”的“环境监测云平台”成了现代环控的必经之路。5.2 cStor云存储平台5.2.1 云存储架构cStor云存储资源管理系统采用分布式的存储机制,将数据

28、分散存储在多台独立的存储服务器上。它采用包括卷管理服务器、元数据管理服务器(Master Server)、数据存储节点服务器(Chunk Server)和挂接访问客户端以及管理监控中心服务器的结构构成虚拟统一的海量存储空间。在每个服务器节点上运行cStor云存储资源管理系统相应的软件服务程序模块,系统架构框图如下:cStor云存储架构其中,Master Server保存系统的元数据,负责对整个文件系统的管理,Master Server在逻辑上只有一个,但采用主备双机镜像的方式,保证系统的不间断服务;Chunk Server负责具体的数据存储工作,数据以文件的形式存储在Chunk Server上

29、,Chunk Server的个数可以有多个,它的数目直接决定了cStor云存储系统的规模;挂接访问客户端即为服务器对外提供数据存储和访问服务的窗口,通常情况下,客户端可以部署在Chunk Server上,每一个块数据服务器,既可以作为存储服务器同时也可以作为客户端服务器。由一对元数据服务器及其管理的存储服务器节点所提供的存储空间称为一个卷空间,不同的卷空间由卷管理服务器虚拟化统一管理,对外可提供统一的海量存储空间。管理监控中心提供统一易用的WEB配置管理监控平台,提供设备监控、空间监控、文件监控、服务监控、用户认证管理、配额管理、故障告警及预警等功能,实现智能化管理。这种分布式系统最大的好处是

30、有利于存储系统的扩展和实现,在小规模的数据扩展时,只需要添加具体的Chunk Server即可,而不需要添加整套设备。在实现大规模扩展时也可方便地添加整个卷设备。5.2.2 平台优势分析cStor云存储系统是一套软件与硬件相结合的系统,其中专有存储技术和软件是高附加值部分,可以广泛应用于需要存储大量数据的应用场合。该系统相比传统存储系统有如下技术优势:1) 高度可靠存储系统采用云架构,数据被分块存储在不同的存储节点上,数据采用先进的1:1容错机制进行容错,可在任意损坏一个存储服务器节点的情况下实现数据完整可靠,系统对外存储访问服务不间断。云存储的管理节点采用了主备双机镜像热备的高可用机制,在主

31、管理节点出现故障时,备管理节点自动接替主管理节点的工作,成为新的主管理节点,待故障节点修复并重启服务后,它则成为新的备管理节点,保障系统的724小时不间断服务。2) 优异性能cStor采用控制流与数据流分离的技术,数据的存储或读取实际上是与各个存储节点上并行读写,这样随着存储节点数目的增多,整个系统的吞吐量和IO性能将呈线性增长。同时,cStor采用负载均衡技术,自动均衡各服务器负载,使得各存储节点的性能调节到最高,实现资源优化配置。3) 无限容量系统容量仅受限于卷管理服务器内存,可支撑的容量接近无限,经推算,理论容量为102410241024 PB (1G个PB容量)。4) 在线伸缩cSto

32、r云存储系统扩容非常方便,支持不停止服务的情况下,动态加入新的存储节点,无需任何操作,即实现扩容;同时,无需人为干预,也可以摘下任意节点,系统自动缩小规模而不丢失数据,存储在此节点上的数据将会重新备份到其他节点上。5) 通用易用cStor云存储系统提供符合POSIX标准的通用文件系统接口,无论是哪种操作系统下的应用程序,都可以不经修改将云存储当成自己的海量磁盘来使用。同时,也提供专用的API接口,供开发人员调用。6) 智能管理提供基于WEB的管理控制平台,所有的管理工作均由cStor管理模块自动完成,使用人员无需任何专业知识便可以轻松管理整个系统。通过管理平台,可以对cStor中的所有节点实行

33、实时监控,用户通过监控界面可以清楚地了解到每一个节点和磁盘的运行情况;同时也可以实现对文件级别的系统监控,支持损坏文件的查找和修复功能。系统提供用户安全认证及对不同用户进行配额设置与权限管理功能,满足应用的日常维护和安全管理需求。5.2.3 数据管理模块采用业界已经成熟的cStor云存储系统,在多台普通商用服务器上构建高性能高可靠云存储系统,作为本次系统分布式云存储平台,其应用部署示意图如下:部署示意图cStor云存储系统所有的节点均通过网络的方式连接起来,其中存储节点采用廉价的计算机节点,运用自适应副本管理技术进行容错。所有存储节点同时担任对外服务功能,客户端分别挂载到不同存储节点访问云存储

34、系统。通过增加或者减少存储节点的方式,即可以对存储系统进行在线伸缩,由于采用了自适应副本管理技术进行容错,系统在线伸缩的过程中,不影响系统对外提供服务。云存储系统属于基础平台支撑层,用于集中存储和共享,实现对数据的统一管理和高效应用。将数据逻辑集中物理分散,以提供多并发高吞吐带宽,最大程度降低系统访问瓶颈。cStor云存储系统从管理功能上划份为三大部分:1. cStor分布式文件系统:分布式文件系统实现文件数据存储、可靠性容错、可伸缩性保证、高可用保证、负载均衡和流量分担等功能。2. 存储访问接口:cStor提供符合POSIX规范的文件系统访问接口,通过cStor访问挂接程序可将云存储空间挂接

35、为本地目录或磁盘。同时可提供专用的API接口,支持业务应用层程序对云存储系统的直接访问。3. 管理监控中心:管理监控中心提供帐户管理、设备管理、系统监控、卷管理、告警管理、故障管理等功能。5.3 cProc云处理平台5.3.1 云处理架构平台采用cProc云处理系统搭建在分布式云存储平台上,对业务层直接提供对外开发接口和数据传输接口的分布式数据处理平台。cProc云处理系统是一种处理海量数据的并行编程模型和计算框架,用于对大规模数据集的并行计算。下图为cProc云处理系统架构图:cProc云处理系统架构图云存储层包括云储存系统cStor和HDFS云储存系统;而在数据管理层中,包含数据立方、Hb

36、ase;数据处理层包含JobKeeper和MapReduce;最后的监控协调层则包括zookeeper和Chukwa来实现对整个系统的实时监控和数据管理。cProc云处理系统通过把对数据集的大规模操作分发给网络上的每个节点实现数据处理,每个节点会周期性的把完成的工作和状态的更新报告回来。随着节点的增多,cProc云处理系统的处理能力将成倍数增长。cProc支持100GBps以上量级的数据流实时索引,1s内响应客户请求,秒级完成数据处理、查询和分析工作。同时cProc云计算软件支持和关系数据库混合模式,绝大部分海量数据存放于分布式平台并进行分布式处理,少量实时性要求很高的数据存放于关系数据库,以

37、满足支撑各种类型的业务需求。支持支撑查询、统计、分析业务;可支撑深度数据挖掘和商业智能分析业务。要求对标准SQL规范支持度达到50%以上。提供属性选择、分类预测、回归预测、聚类分析、关联分析、时间序列分析等数据挖掘算法。5.3.2 平台优势分析1. 实时性平台在高效率并行分布式软件的支撑下,可以实时完成数据处理和分析工作,如数据处理、数据查询、和统计分析等。数据处理不会出现数据堆积现象,各类分析和查询工作基本都在秒级完成,具有前所未有的高效性。查询具有高准确性,支持并发查询,所有查询请求都能正常下发执行且都能正常返回结果。查询条件相同情况下,每次查询结果相同。2. 响应速度快速在海量数据领域,

38、云计算的响应速度远远快于传统的数据库。采用分布式处理的方式,性能与节点数成正比,通过增加节点的方式,可将性能提升,以达到满足需求的处理要求。支持百亿条记录秒级响应,支持对万亿条记录级的数据查询能够进行秒级处理,支持千人同时在线查询。3. 高可靠性基于对云计算可靠性深厚的研究积累,彻底解决了当前分布式处理平台易出现的单点故障问题。系统支持按设备负载情况自动进行负载均衡。移除或新增一个节点后,仍能均匀地向各处理节点分发数据。系统没有单点故障,任意节点宕机,系统仍可保持正常工作,可以继续进行数据处理和应用查询,不影响分布式系统运行和查询结果的准确性。系统支持全冗余,每个节点是高可用配置。当元数据节点

39、出现故障时,会自动切换到备用元数据节点。任何一个节点出现故障,不会影响系统数据的正常访问。当包括元数据节点的任意1个节点发生故障,存储系统仍然保持数据100%完整,并且不会停机中断服务。4. 可移植性系统软件具有强大的可移植性,具有跨平台性,一次编程,任意操作系统都可运行的强大特性。5. 高扩展性在不停机的情况下,集群可以按需求增加节点、并且能方便的融入集群执行查询等任务,在请求流量不变、节点资源增加的情况下,查询任务耗时应按比例降低。产品既可以在很小规模集群上运行,也可以在千台或万台规模的集群上运行,通过简单的操作就可以把实现集群规模的弹性扩展,可靠性应随着节点数量规模的增加成线性上升。系统

40、支持在系统不停机情况下,通过向系统中增加节点的方式实现业务不中断情况下扩充容量和性能,可以做到与资源池的无缝对接,根据处理和存储任务动态地申请或释放资源,最大限度地提高资源利用率。分布式文件系统支持扩展到PB级容量。6. 高可用接口提供专用API、Web访问和Web Services接口,满足进行对外数据交互操作的需求。提供web界面对分布式运算系统进行监控,支持查看、下载索引文件和元数据文件。所有接口经过严格测试。客户端支持Linux(CentOS、RedHat、Ubuntu)、FreeBSD、Windows、苹果MacOS X等主流操作系统。7. 高性价比云计算处理系统软件具有超高的性能,

41、索引入库索引整体效率支持100Gbps以上量级的数据流实时索引,单节点数据入库索引速度高于10MB/s,能够根据提供的表结构解析元数据,并根据提供的任意关键字段实时创建索引。采用X86架构处理机构建云计算平台,用软件容错替代硬件容错,大大节省成本。在目标性能和可靠性条件下,可比传统的小型机加商用数据库方案节省10倍左右的成本。同时分布式计算能力具有集群能增加节点、并且能正常执行查询任务,在流量没变、资源增加的情况下,增加机器前后,查询任务耗时按比例降低的能力。使得整套软件的性价比极高。8. 全业务支持采用NoSQL关系数据库混合模式,绝大部分海量数据存放于分布式平台并进行分布式处理,少量实时性

42、要求很高的数据存放于关系数据库,可支撑各种类型的业务。不仅支撑查询、统计、分析业务,还可支撑深度数据挖掘和商业智能分析业务。5.3.3 数据立方技术通过对MapReduce、并行数据库和两者的混合技术研究,南京云创大数据科技股份有限公司推出了实施云计算数据库数据立方,该系统通过引入索引模块、并行执行架构以及读取本地磁盘的执行方式,使查询达到了实时完成、简单易用、高可靠安全的效能,使EB级的数据能够秒级处理,极大地提高了用户执行查询操作后的使用效率,不仅在查询和检索这部分数据的时候具有非常高的性能优势,数据立方还可以支持数据仓库存储、数据深度挖掘和商业智能分析等业务。我们以B+树的结构建立了字段

43、的索引,每个B+树结构的字段索引相当于一个数据平面,这样一个全局数据表与其多个重要字段的索引就组成了一个类似于立方体的数据组织结构,我们称之为“数据立方”。数据立方概念图cProc是一种用于数据分析与索引的技术架构。它是针对大数据(big data)的处理利器,可以对元数据进行任意多关键字实时索引。通过cProc对元数据进行分析之后,可以大大加快数据的查询和检索效率。cProc是凌驾于数据存储层和数据库系统之上的,通过cProc解析后,可以大大增加数据查询和检索等业务,可以让系统平台具备数据实时入库、实时查询、查询结果实时传输等优势。数据立方的体系架构图数据立方(DataCube)的结构分为用

44、户接口、索引、SQL解析器、作业生成器、元数据管理、并行计算架构、分布式文件系统等部分。用户接口主要有两个:JDBC和Shell。JDBC主要执行数据的定义操作,即建立数据库、建表、建分区,对数据库、表和分区的删改等,同时可执行数据查询的SQL语句,暂不支持单条记录的增删改;数据立方提供友好的shell交互界面,shell支持数据库、表的增删改以及数据查询的SQL语句。数据在入库的同时与数据对应的索引也在同时建立,索引是一颗B树,数据插入到内存的同时,索引B树也在生成,当达到设置上限时,数据和索引会刷新到分布式文件系统上成为文件。数据立方的元数据存储在数据库中,其中包括:数据库的名字和属性,数

45、据库中的表,表的名字,表的列和分区及其属性,表的属性,表的数据所在目录等等。SQL解析器接收从JDBC和SHELL传来的SQL查询语句,同时对SQL进行词法分析、语法分析、编译、优化。作业生成器根据SQL语法树生成查询作业,分析所要处理的数据表对应的索引文件的所在存储子节点位置,并将作业发送给并行计算架构。并行计算架构接收到作业生成器生成的作业,根据索引文件的位置切分查询作业形成子任务,然后将子任务发送给数据所在的存储子节点,每个节点执行这些子任务查询索引得到结果记录所在的数据文件名与偏移量,并以广播的方式发送查询子任务到数据文件所在的节点,在执行完毕后将结果返回。数据立方可以使用HDFS和c

46、Stor作为底层存储系统,cStor是一个主从结构的分布式文件系统,不仅具有HDFS的高吞吐率、高读写性能等特性,还支持HDFS所不具备的对文件修改等功能,并且支持POXIS接口。5.4 DataSense数据挖掘平台5.4.1 数据挖掘架构DataSense数据挖掘系统主要提供实现大多数主流的数据挖掘功能,包括属性选择、分类预测、回归预测、聚类分析、关联分析、时间序列分析等6大类。为适应不同业务数据的特点,对同一个数据挖掘功能,通过多种算法进行实现,例如“分类预测”有决策树、分类回归树、支撑向量机分类、神经网络分类、贝叶斯网络、朴素贝叶斯、逻辑回归、分类组合模型等算法可供上层应用选择,具有高

47、处理性能和高可靠性,可不间断接受任务。数据挖掘架构图DataSense数据挖掘系统采用了数据立方大数据库作为对系统海量数据的底层存储平台,提供了高效的ETL工具,能够对海量数据进行高效快速的清洗。前端WEB部分方便用户管理和使用系统,对于数据挖掘的结果提供了饼图、散点图、折线图、面积图、柱状图、雷达图、线箱图、分布图、多折线图、帕累托图等10类可视化手段,利于业务系统对数据和模型的观察和调用。DataSense数据挖掘核心模块系统架构:DataSense核心模块图 分布式数据挖掘引擎管理本机上同时运行的多个计算任务,协调资源分配。 分布式挖掘运行时独立的数据挖掘程序,负责对切分好的最小单元任务进行处理。 DataSense分布式数据挖掘管理引擎提供对数据挖掘应用的API,同时负责对整个数据挖掘任务的调度管理。 分布式数据挖掘算法库提供对数据挖掘常用的基本挖掘算法,同时用户可以自己任意添加新的挖掘算法。5.4.2

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号