大数据平台技术方案-大数据平台技术解决方案.docx

资源描述

《大数据平台技术方案-大数据平台技术解决方案.docx》由会员分享，可在线阅读，更多相关《大数据平台技术方案-大数据平台技术解决方案.docx（182页珍藏版）》请在三一办公上搜索。

1、大数据平台技术方案（大数据平台技术解决方案）大数据平台技术方案目录1.52.53.54.5第1章需求概述51.1背景概述51.2建设目标51.3需求理解71.4面临挑战91.5设计原则10第2章总体技术方案132.1软件架构132.2总体技术架构设计142.3功能组件完整性介绍182.3.1、数据集成组件（ Data Hub）272.3.1.1、数据采集272.3.1.2、数据采集管理352.3.2、大数据计算存储平台（ Hadoop Distribution）382.3.2.1、海量数据集中存储392.3.2.2、高效数据处理402.3.2.3、分布式应用协调452.3.2.4、计算资源分

2、配控制452.3.2.5、存储资源分配控制462.3.2.6、平台高可用性472.3.3、算法与分析工具 ( Artificial Intelligence)522.3.3.1、数据挖掘工具542.3.3.2、R统计分析572.3.3.3、Python统计分析582.3.4、数据资产管理 ( Data Governor)582.3.4.1、元数据管理602.3.4.2、数据标准与质量管理632.3.4.3、数据生命周期管理652.3.5、数据可视化（ Vision）682.3.5.1、数据源682.3.5.2、智能报表692.3.5.3、仪表板712.3.5.4、自助分析732.3.5.5、多

3、维分析752.3.5.6、OFFICE插件762.3.5.7、移动可视化762.3.6、系统运维监控（ Manager）772.3.6.1、安装部署782.3.6.2、集群监控792.3.6.3、服务管理822.3.6.4、主机管理842.3.6.5、告警管理872.3.6.6、版本管理892.3.6.7、日志管理912.3.6.8、多租户管理912.3.7、架构优化设计952.3.7.1、统计分析和精确查询952.3.7.2、Spark计算引擎结合分布式内存计算提供交互式统计分析能力952.3.7.3、多种索引支持与智能索引962.3.7.4、高并发、低延迟性能优化972.3.7.5、计算资

4、源有效管控972.3.7.6、API设计和开发工具支持982.3.7.7、接口开放性982.3.7.8、第三方工具生态圈整合1002.3.7.9、扩容、备份、恢复机制1012.3.8、功能优势说明1022.3.9、集群规划1032.3.9.1、集群划分1032.3.9.2、数据仓库集群1042.3.9.3、历史数据分析探索集群1042.3.9.4、开发集群1052.3.9.5、测试集群1062.3.9.6、集群容量说明1072.3.9.7、硬件配置建议1082.3.9.8、网络拓扑架构1102.4系统基本功能点1112.4.1、的发展紧随Apache社区1112.4.2、集群内所有组件的管理节

5、点均实现HA1122.4.3、提供完全基于WEB图形化的集群服务器角色，配置和状态管理1122.4.4、集群支持线性扩展1142.4.5、100%兼容标准SQL921152.4.6、支持分布式文件系统HDFS和HBase等主流数据库1192.4.7、支持多种计算执行引擎1202.4.7.1、内存计算框架1202.4.7.2、批量计算框架1222.4.7.3、流式计算框架1242.4.7.4、多维数据分析计算框架1252.4.8、支持异构数据库关联查询1272.4.9、支持大部分的机器学习和数据挖掘算法1282.4.10、支持图形化ETL1302.4.11、同时支持Solr和ElasticSea

6、rch1302.4.11.1、Elasticsearch1302.4.11.2、Solr1312.4.12、支持各种类型的数据1322.4.13、支持多租户1332.4.14、支持支持分布式存储数据加密1342.4.15、支持记录操作日志留存1352.4.16、支持自适应压缩算法1362.4.17、SQL支持各类函数1372.4.18、具备可视化分析能力1402.4.19、支持建立OLAP Cube1412.4.20、支持数据预警功能1422.4.21、支持多种数据类型的文件加载到大数据平台1422.4.22、支持复杂模型建模1452.4.23、数据上载速度快1492.4.24、SQL性能好1

7、602.4.24.1、NoSQL数据库单服务器扫描性能测试1602.4.24.2、文本文件中导入数据单机性能测试1602.4.24.3、Spark导入NoSQL数据单机性能测试1612.4.25、朴素贝叶斯分类性能好1622.5数据库功能支持1632.5.1、开发及应用接口1632.5.2、SQL语法兼容性1652.5.3、生命周期管理功能1682.5.3.1、热数据1692.5.3.2、冷数据1692.5.4、表分区功能1702.5.5、表压缩功能1702.5.6、大表索引管理1712.5.7、数据导入与导出1722.5.8、多级数据存储1732.5.9、半结构化与非结构化数据支持1742.

8、5.9.1、全文数据处理1742.5.9.2、安全可靠与运维能力1752.5.9.3、资源管理1752.5.9.4、系统容错性1772.5.10、单点故障消除1792.5.11、容灾与备份1802.5.12、在线扩容1811.2.3.4.第1章需求概述1.1背景概述近年来，大数据相关技术发展迅速，大数据技术越来越成熟，已经有越来越多的企事业单位通过大数据技术为来创造更多的价值的同时，也为企事业单位带来了更高的性价比、和更易于扩展的超大规模数据处理能力。基于大数据平台技术，整合现有人口数据，接入公安的舆情数据，搭建处理能力更强，更易于扩展，性能更高的统一数据平台。不仅可以很好的满足高计算、高存

9、储、高负载的要求，更能够对海量的数据进行数据存储、清洗、加工、建模等，把先前无法利用的数据充分利用，提升对数据的认识，抓住机遇为华西医院平台建设做好最基础、最扎实的工作。1.2建设目标全市人口基础数据库大数据平台系统需要建设成为一个是一个高可靠性、高安全性、高性能、高可扩展性、高灵活性的先进系统，用来存储、管理、检索、分析、查询等操作，系统能够提供灵活应用提供可靠、安全、高效的保障，并能够为灵活的建立多种应用提供强大开发支持。系统需要提供对数据仓库类应用的支持，提供对数据分析、数据挖掘类应用的支持，能够存储、查询、分析海量全市公安局的历史数据，提供实时数据计算模块，提供并行分析算法包，可以替代

10、传统数据库系统的大数据管理软件系统、大规模并行数据挖掘软件工具包、R语言业务建模可视化工具、流式计算软件工具包、数据复制与资源管理等支持类软件工具包。全市人口建设的大数据应用平台项目，要实现的具体业务目标为海量数据的低成本高效存储、加工、使用。支持各类结构化、半结构化、非结构化海量数据的低成本存储，快速批处理加工，各应用系统的在线数据查询、统计分析、数据挖掘等需求；为超长时间的海量历史数据存储和使用提供技术基础设施。支持将人口、环境、教育等数据导入导数据平台。同时必须支持蒙古文相关数据的分析、处理。支持移动互联渠道场景的高并发低延时数据服务需求银行在移动互联渠道提供的客户服务逐渐丰富，客户

11、点击流量增长快速，客户的体验要求也在提高。大数据基础软件应能较好地支持移动互联业务场景高并发低延时的数据访问需求，包括通过流式计算框架对客户个性化场景营销、实时风险监测、银行流动性风险实时预警等需求实现提供技术平台支持。支持业务数据分析团队自主数据探索和业务建模通过良好可视化支持的集成工具软件，业务数据分析团队可编写简易的R语言数据处理和可视化程序，自主探索分析业务数据，利用机器学习算法对业务数据建模和验证，利用成熟的量化模型算法支持更科学的经营决策。建立人口与环境、教育等社会资源的模型，进行深度数据挖掘。软件相关支持服务为更好发挥大数据平台的技术优势，同时确保系统平稳安全运行，需要提供

12、现场和非现场形式的产品业务培训和技术培训、运维支持、产品缺陷修复和产品升级、大数据技术架构咨询、应用开发指导等关联支持服务。将利用在行业内积累的的丰富经验，以及在大数据平台技术的积累的深厚的实力，协助华西医院建设以大数据技术为基础，融合开发、测试、生产的统一平台，利用大数据技术解决现有传统架构下面临的的计算瓶颈、存储压力、扩展问题、以及应用限制等问题。1.3需求理解通过对华西医院基础软件及服务建设需求的分析，以及我们对数据应用的理解，我们总结了如下数据应用和相关流程：1. 华西医院基础软件及服务数据处理平台是一个高可靠、高稳定、高安全、高性能、高可扩展、高易用性的基础数据存储、分析、管理、计算

13、平台。2. 平台将完成现有数据仓库类业务，另外也将完成历史数据存储、查询、分析类的应用。3. 数据处理平台需要定期、批量的接受公安局内部和外部各类系统所产生的数据，以批量的方式将数据插入至数据处理平台，插入数据后进行数据清洗、数据转换、数据格式统一、数据入库等操作。4. 数据处理平台也可能会定期从其他现有系统中抽取部分业务数据至平台中，为后期综合分析准备数据。5. 数据处理平台准备好数据后，将通过SQL、R语言等方式对数据处理平台中的数据进行数学分析、数据挖掘和机器学习，并将结果快速显示出来，尤其是对人口与环境、教育等社会资源的模型进行分析，进行数据深度挖掘和分析。数据处理平台对SQL支持的完

14、整程度将是选择平台的重要考虑之一。对SQL 2003标准的完整支持，包括对各种数据类型的支持，对各种复杂连接查询的支持，对相关子查询、嵌套子查询的支持、对操作符、函数的完整支持，会使得后期在数据处理平台的应用开发变得非常方便、并且平台将方便的与现有平台、现有应用进行对接，同时上层通过SQL完成的应用，通过JDBC/ODBC接口连接的应用可以不用做任何修改，这是数据处理平台对基础应用支撑。6. 需要对数据处理平台的数据进行建模，以完成相关业务模型操作和计算。7. 数据处理平台需要支持数据分析、数据挖掘、机器学习算法。平台需要提供对R语言和Python的支持，能够使用R语言所提供的5千多种算法，可

15、以通过算法灵活的对数据进行分析和挖掘，提供对业务有价值的结果。8. 数据处理平台需要提供通用的应用接口，以方便与现有应用、现有系统进行对接，完成系统集成。1.4面临挑战华西医院的数据增长迅速，已经达到TB级别，如果加上非结构化数据，未来几年的数据存储将达到几十TB，甚至上百TB的数据量级别，如何对这些海量历史数据资产进行有效的存储、管理、整合，并在此基础上进行快速共享、计算、分析，最终达到对业务的有效知道是本系统的建设关键。在华西医院项目基础软件及服务建设过程中，主要会面临以下挑战：扩展性：当数据量达到一定限度之后，无论是数据存储、分析、查询，都会受到极大的限制，系统的横向扩展性的能力将是系

16、统建设的重要考量之一。价格: 系统的横向扩展，必然会带来软件、硬件成本的增加，以及后期升级、维护、扩展的成本的投入也是系统扩展面临的挑战。性能：数据动辄几十TB、甚至上百TB，面对如此海量的数据，若要进行高效的计算、分析，为业务提供有效的指导，必须要满足业务允许的时间要求。平台的易用性：华西医院项目基础软件及服务的数据处理平台易用性也是系统建设的关键问题，能否提供一个可简单、方便为上层应用使用的平台，或者可以将现有应用方便迁移到新建设的华西医院项目基础软件及服务数据处理平台也是面临的挑战。平台的易用性将直接影响到平台的建设、应用的建设，将直接影响工作成本。1.5设计原则系统在设计过程中除考虑满

17、足当前项目建设要求外，还应当满足后续系统平滑扩展升级要求，因此总方案设计遵循如下设计原则。开放性引入业界开放的、成熟的标准，从而保证系统成为符合标准又不失灵活性的开放平台，为未来的系统的灵活开放奠定基础。需要支持业界开放的标准接口，如： SQL2003，PL/SQL等等，同时完全兼容开源的标准。先进性基于统一的整体架构，采用先进的、成熟的、可靠的技术与软硬件平台，保证基础数据平台系统易扩展、易升级、易操作、易维护等特性。基于业界热门的，且领先的Spark技术，极速提高平台的整体计算性能。可扩展性随着新的业务需求的不断产生，支持基础数据模型、应用分析模型、前端应用的扩展性；支持在统一系统

18、架构中服务器、存储、I/O设备等的可扩展性。可靠性制定并实施基础数据平台高可用性方案、运行管理监控制度、运行维护制度、故障处理预案等，保证本期系统在多用户、多节点等复杂环境下的可靠性。高效性高效性包含两方面内容，一方面系统需要在规定时间内完成数据写入操作，并将数据写入对数据分析的影响降到最低；另一方面系统需要实现规划要求的数据查询和统计分析速度。正确性数据质量贯穿基础数据平台系统建设的每个环节，基础数据平台系统通过合理的数据质量管理解决方案保证数据质量。安全性按国家标准、行业标准、安全规范等实现数据安全管理。可维护性系统要有统一的管理平台, 管理基础数据平台系统的各个环节，能对系统进

19、行相应的性能管理和日志监控。易用性有良好的人机接口不灵活多样的展现方式，需要对最终用户提供适当的培训就可以方便地使用新的分析工具，从而减少IT人员的工作量，同时加强了集群监管的时效性。第2章总体技术方案通过对华西医院基础软件及服务需求的理解，以及根据建设目标、设计原则的考虑，建议华西医院采用基于大数据基础平台的架构方案，来满足华西医院基础软件及服务建设的要求。2.1软件架构Apache Hadoop是针对大规模分布式数据而开发的软件框架，目前已经成为企业管理大数据的基础支撑技术。是解决企业数据中心大数据存储、大规模数据计算、快速数据分析的优秀基础数据平台。然而现有的Hadoop技术仍然面临

20、一些挑战：性能上，尽管Hadoop在100TB以上的数据上远远领先于传统数据处理技术，然而对GB到TB级数据的处理效率较低；其次，只有对海量的数据进行高效的分析及利用才能将大数据中存在的巨大潜在价值转换为实际的商业价值，这就需要完备的决策分析工具集运行在Hadoop架构之上；最后，亟需完备的企业级解决方案来加速大数据应用的广泛部署。企业级大数据分析平台是业界领先的处理企业级大数据场景的高性能一站式分析平台。它可以帮助企业快速建立一个统一的数据和计算平台，快速支持企业内部/外部数据的采集与集成、实现海量数据的存储、并提供极佳的数据计算与深度分析挖掘能力。在大数据平台之上，用户可以构建相应分析挖掘

21、应用，从而辅助企业及时洞察新的商机和潜在的风险，提升企业竞争力。大数据产品具有业界完整的SQL on Hadoop支持，实现完整支持SQL标准，增强分布式事务处理能力，全面支持MPP场景；突破实时处理计算框架，支持物联网实时业务分析；最完整的并行数据挖掘算法库，并原创前沿机器学习组件；一站式图形化的数据开发套件，可快速分析应用；它是企业级大数据场景的高性能一站式分析平台的优秀选择。2.2总体技术架构设计基于企业内部多年的大数据建设实践经验，针对开源Apache Hadoop/Spark框架进行了大量的修复完善及深度优化工作，并自主创新的众多功能和实用工具，易于使用者开发和管理。华西医院的数据来

22、源自多个方面，包括内部数据来源以及未来可能第三方数据接入。各类数据的来源方式多样化，包括关系型数据库数据、数据仓库数据、实时数据、文件数据、图片数据等。面对于多种数据接入的需求，大数据平台提供多种针对性的接入方式以及工具，通过分布式消息队列Kafka接入实时数据；通过Sqoop全量或定时增量抽取同步关系型数据库；采用Kettle作为数据抽取管理工具，Kettle提供图形化的界面定义数据抽取规则，并可与其他工具相结合，完成数据抽取的工作流；同时，分布式文件系统HDFS通过FTP Over HDFS提供文件通过FTP传入HDFS的通道；通过Flume提供海量日志文件的聚汇到HDFS的功能。大数据分

23、析平台从功能架构上分为数据集成套件、大数据计算平台、算法与分析工具组件、平台运维管理组件、数据资产管理组件、数据可视化组件。序号名称软件说明软件来源1数据集成套件提供对多种结构化和非结构化数据的灵活集成。支持不同系统和设备的开发工具套件，能够根据企业的需求方便地快速扩展，为企业快速收集其信息系统之外的设备、用户和社交数据。同时也提供网络爬虫模块，以方便企业获取外部网络数据。自有2大数据计算平台基于开源HadoopSpark 生态系统，引入了多种核心功能和组件，对复杂开源技术进行高度集成和性能优化，面向基础设施层进行深度调优。在分布式存储系统的基础上，建立了统一资源调度管理，高效地支持大规模批处

24、理、交互式查询计算、流式计算等多种计算引擎。自有3算法与分析工具提供挖掘算法工具、人工智能工具实现数据深度挖掘能力；同时为各类客户查询分析、应用开发等相关工具，方便人员使用。自有4系统运维管控系统运维监控中心可提供快速完成产品套件的安装部署、节点监控、访问权限管理、资源配额管理、系统告警分析、升级扩容等计算平台维护工作，通过统一的图形化界面实现对大数据平台及运行服务状况的实时监控和管理。自有5数据资产管理将数据对象作为一种全新的资产形态，围绕数据资产本身建立一个可靠可信的管理机制，提供数据标准管理、数据资产管理、元数据管理、数据质量管理、数据安全等，以实现数据的可管、可控、可视，为实现数据价值

25、增值奠定良好基础。自有数据可视化 Vision具有仪表盘（Dashboard）、灵活查询（Query）、电子表格（Spreadsheet）、多维分析（Analysis）、移动应用（Mobile）、分析报告插件（Office Addin）、自助分析（xQuery）、数据采集（dataIn）、数据挖掘（Smart Mining）等丰富的功能，用户可以更直观便捷地获取信息，并开创性地把各种技术整合到一个集成环境中。自有基于企业内部多年的大数据建设实践经验，针对开源Apache Hadoop/Spark框架进行了大量的修复完善及深度优化工作，并自主创新的众多功能和实用工具，易于使用者开发和管理。2.

26、3功能组件完整性介绍基于企业内部多年的大数据建设实践经验，针对开源Apache Hadoop/Spark框架进行了大量的修复完善及深度优化工作，并自主创新的众多功能和实用工具，易于使用者开发和管理。产品功能说明：功能内容描述数据集成组件（ Data Hub）数据库导入支持MySql、Oracle、DB2等多种数据库到Hive、HDFS的数据导入；支持常见数据库互导以及导入到HDFS和Hive；本地文件导入支持本地文件、Excel、CSV到Hive、HDFS的导入；客户端导本地路径文件源、客户端导数据库数据源；Dump文件上传到Hive、HDFS、DB；公有云数据导入提供阿里云、亚马逊云RDS到

27、HIVE、HDFS、常见DB数据导入；大数据类数据库导入支持Redis、HBase、Impala、MongoDB等数据导入Http流式上传提供http流式上传方式，开放上传接口，上传到kafka消息队列服务提供Kafka消息队列服务其他类型导入支持SAP、网络数据爬取等功能；提供FTP上传到HDFS 迁移任务展示所创建的任务信息及任务运行情况，并可对任务进行管理查看所有数据迁移任务的执行历史和日志（比如某条任务是每小时执行一次，就会产生多条执行历史）资源库创建资源库连接信息并保存，在之后的上传过程中，可以选择已经保存过的数据库，自动进行连接选择，不用再输入信息，方便操作；对保存过的资源库连接进

28、行列表展示，并可以对资源库信息进行管理操作；流程管理流程的新建、复制、删除、修改、启用、停止、查询，定义任务调度策略；大数据平台组件（ Hadoop Distribution）分布式文件存储 - HDFS分布式文件存储、多副本备份与同步机制，提供容错机制，可修改副本策略，支持跨机房备份；大文件写入、流式数据访问、高吞吐量数据访问；支持数据存储分布策略，支持机架感知与负载均衡，支持高可用；NoSQL数据库分布式、列存储、多维结构存储，支持结构化和非结构化大数据量的高速读写操作；面向列表（簇）的存储和权限控制，列（簇）独立检索，以及二级索引，支持数据多版本；面向列的数据压缩，高压缩比，有效降低磁盘

29、I/O；数据仓库工具 - Hive海量结构数据批量离线分析；提供基于HQL的数据查询机制，支持UDF，自定义存储格式，扩展数据类型，函数和脚本；批量计算框架 - MapReduce数据划分和计算任务调度；内存计算引框架- Spark分布式内存计算引擎；流数据计算引擎基于Storm与Spark Streaming的流式计算引擎；分布式数据库MPP支持基于Spark的MPP架构数据库，基于Spark扩展CRUD操作；多维分析引擎 - Kylin提供OLAP分析能力，支持SQL查询分布式消息队列服务 - Kafka支持消息队列的负载均衡、分区存储、数据压缩等分布式协作服务 - Zookeeper配置

30、管理、配置更新通知、节点主备容灾、节点心跳管理等；统一资源调度 - Yarn支持资源封装、调度、隔离以及配额管理；支持Capacity(静态)、FIFO(先进先出)、Fair(公平、动态)等调度模式；交互式分析引擎 - Impala支持基于SQL的查询分析；支持基于JDBC/ODBC的数据库连接，支持BI可视化工具连接数据导入导出 - Sqoop支持传统数据库到Hadoop；支持Hadoop到传统数据库；全文搜索引擎 - Solr基于Lucene的全文搜索服务器；日志采集服务 - Flume分布式、可靠的日志采集服务；日志分析服务 - ELK提供一个分布式多用户能力的全文搜索引擎；支持日志搜集

31、处理框架、快速的日志综合处理能力；支持日志搜索、可视化、分析能力缓存服务 - Redis基于Key-value的数据缓存库，支持数据同步；安全保障支持Kerberos认证和LDAP集成；任务调度( Task Scheduler ）实例管理快速检索查询当前平台的所有流程实例、流程执行实例依赖关系图形化、实例执行流程图查看；重跑、补跑、任务重试、终止；实例相关流程调度历史时长图形化与列表两种方式展示；配置管理数据库等资源的连接配置；依赖的hadoop/hdfs等相关的配置；支持短信/邮箱告警服务，如邮箱配置、SMS配置，告警短信配置；数据分析( SQL/R/Python Editor)数据源管理获

32、取数据库元数据信息，可以展开并快速检索表信息；数据查询提供SQL编辑器，支持语法补全、关键字补全、数据库表提示、SQL格式化；支持SQL 2003标准，兼容SqlServer/Oracle语法，支持存储过程、支持TPC-DS测试集99个SQL语句；查询结果可以通过交叉表进行进过展示，默认显示前100行；脚本开发支持R、Python脚本运行；定时任务展示当前定时任务列表及执行历史；定时任务添加、修改、删除、禁止，可以配置任务的调度周期多租户管理 ( User Admin)用户管理 - 操作用户用户及账户的添加、修改、删除，用户启停用；项目管理 - 多租户管理提供项目管理、人员分配、权限管理等功能

33、费用管理当前计算、存储资源消耗费用计算，并可查看详情；资源管理当前租户下各项目资源使用情况，对项目进行资源池分配；个人中心密码修改、用户注销；集群管理（ Manager）安装部署安装文件拷贝、环境检测与主机环境配置、组件自动化部署；集群监控指标监控、监控热图、历史配置信息、版本信息；服务管理添加与删除服务、服务启停、部署与移动；参数配置、配置组、历史版本；HA配置，支持全组件的HA配置，包括 Manager管理节点；主机管理添加与删除主机节点、主机监控指标、主机及相关组件的告警信息；告警管理报警历史记录；告警组、告警通知；版本管理平台及各个组件版本管理、版本升级；平台授权信息注册；用户管理

34、- 运维用户用户添加、修改、删除；角色添加、修改、删除；日志管理根据检索内容做简单的信息统计，统计不同类型输出信息数量；根据组件、关键字信息做信息搜索；元数据管理 Metadata元数据采集JDBC数据库连接采集、DDL文件上传解析、Excel模板上传解析、API读取系统数据元数据内容展示支持数据库Oracle、MySQL、Postgresql、SqlSever的数据结构、样本数据、变更详情、基本信息、存储信息、分区信息、索引信息；主外键信息采集、视图信息采集、分区信息采集及数据库、表大小的信息采集；支持分布式数据架构Hive、HDFS信息采集功能；支持内部数据处理流程、Oozie、azka

35、ban的信息采集元数据查询支持模糊查询和精确查询的全局搜索；Hive和HDFS支持血缘分析功能，主要为表之间的关联性；支持Ooize和Kettle等常见ETL开发工具的血缘关系；元数据变更记录可查看系统元数据新增、修改、删除的变更总数目；可查看系统元数据新增、修改、删除的详情；结构化数据管理提供视图目录的新增、修改和删除；元数据添加业务类描述信息记录查看表字段和分区的变更支持用户对元数据添加：问题、描述、数据质量等描述注释问题；用于团队分享协作使用数据；提供基于业务层级数据模型的管理非结构化数据管理提供对象存储系统，对文档、图片、音频视频存储管理；提供对非结构化数据自动打标管理；提供通过标签搜

36、索查询；数据生命周期管理数据生命周期判定原则定义生命周期查询/更改数据生命周期监控过期数据销毁元数据权限管理实体数据使用的权限分配功能元数据访问的权限控制数据质量（ Data Quality）基础检查按用户选定模式统计空白数量和占比；验证字段的唯一性，统计不唯一id的占比，计算“孤值”；类型检查统计true/false(/null)各自占比统计字符集统计各自数量按用户勾选项统计结果日期检查统计日期缺失数量和占比；统计各种时间关键数据；统计各部分时间分布；查找出当中包含的工作日；其它检查按用户输入统计各部分数量和占比提取顶部(底部)top N的值统计用户指定参数不匹配的值及数量比例模式搜索2.

37、1、2.2、2.3、2.3.1、数据集成组件（ Data Hub）采集具备批量、实时、结构化、非结构化等多样化的采集功能。可提供图形化的操作配置，统一的调度和监控，结合其良好的分布式并行处理架构，具备动态的横向扩展能力。2.3.1.1、数据采集批量数据采集作为大数据体系的核心功能组件，既可以基于SMP单机处理,也可以基于低成本的X86分布式平台展开系统设计，支持库外预处理，基于HADOOP组件实现批量数据的并行数据处理。其核心功能紧紧围绕构建大数据系统在数据处理层面上涉及到的数据采集、清洗、转换、加载及交换的核心数据加工流程展开。（1）数据抽取数据抽取功能具备从不同数据源（RDBMS、Ha

38、doop、MPP等）进行指定规则的数据提取作业，抽取后的数据存储支持落地与不落地两大类进行，抽取后的数据可以为数据转换环节进行处理提供输入，也可以直接进行处理或者加载。支持Oracle,DB2,Mysql,SQLserver,Teradata,Greenplum等主流数据库接口。数据采集采用多样性的接口方式，除了支持传统的JDBC/ODBC接口、FTP文件接口，还支持目前主流的流数据采集的Socket接口及Webservice接口，同时扩展支持了Hadoop生态圈的Flume日志系统采集接口等，提供完善的图形化可拖拽的操作管理界面提供良好的用户体验降低产品使用难度，可以根据实际业务需求选择相应

39、的配置也可以统一使用。数据采集功能针对不同的使用场景诉求提供种类丰富的方式支持，具体来讲主要包括以下几种方式支持：批量数据抽取运用大规模并行计算特点来达到批量数据抽取目标，主要应对数据抽取数据源以较大文件形式对外提供数据时可采用此种采集模式，批量数据采抽取具备如下功能与能力：n 多协议数据抽取提供了文件和数据库等多种数据抽取方式包括支持：高性能关系型数据仓库、MPP分布式数据仓库、Hadoop等，接口协议可以根据需要随时添加。n 多格式数据解析多种文件格式抽取(CVS、XML、Excel、ASN.1、自定义)，支持不同格式、参数、编码、分隔符、Tag的异构文件解析。提供扩展接口，方便支持其他

40、格式。n 高效率与控制多个抽取任务发布到集群中并行处理，内部运算使用二进制存储，针对大批量零散文件优化。可控制并发数和任务优先级。流式（实时）数据抽取流式数据采集主要应对海量数据进行高性能的实时数据采集处理，以实时、高效、低延迟为核心驱动点，具备毫秒级数据触发能力，实现秒级单位时间窗口的数据统计分析能力。通过引入采用Hadoop生态圈的开源技术Spark Streaming、Storm、Flume等，结合常用标准协议（Socket、JMS、HTTP、HTTPS、FTP、SFTP）封装的组件，进行实时数据进行抽取和分析计算，并将计算结果进行展示。根据流式技术特征，适合引入流式数据采集的场景应具

41、有如下特点：针对高频度的事件流。每个独立的事件都需要处理和分析。高聚合度，以至于数据的体积会大量的减少。通过可视化界面通过拖拽式操作实现对数据采集控件使用。数据采集内置提供多种数据采集功能来满足数据采集功能诉求，包括但不限于以下HBASE抽取、HDFS抽取、Excel抽取、XML抽取、TD数据库抽取、GP数据库抽取、MySQL抽取等组件。数据采集组件被统一归纳在抽取控件组件包中，支持用户根据自身诉求动态调整控件包控件内容，同时控件支持根据自身需要进行控件来扩展系统计算能力。ETL产品在实现过程中通过批量数据采集与流式（实时）数据采集二种模式的数据采集能力进行封装形成独立组件，并将其纳入统

42、一的作业调度系统进行统一管控，从而满足不同策略、不同形式、异构数据源之间的数据采集需求。（2）数据转换数据转换包括数据过滤、类型转换、文件拆分与合并、维度转换等功能。数据转换的任务主要是进行不一致的数据转换、数据粒度的转换和一些转换规则的计算。其中不一致转换过程是数据整合的过程，侧重于将来源于不同业务系统的相同类型的数据进行统一处理；数据粒度转换需要按照数据仓库粒度对数据进行统一归整；转换规则计算按照设计的计算归则对数据进行重新计算。数据转换功能说明如下：序号功能功能描述1数据转换规则配置提供图形化的界面来实现灵活的数据处理规则配置，主要提供的数据转换规则设置包括：对数据进行计算、合并、拆分的

43、规则配置、对空值替换规则的配置、对数据格式化规则的配置等；2数据处理过程记录支持对数据处理过程的日志记录，记录的信息主要包括：元数据记录、转换后数据记录、运用的转换规则、转换的时间等内容；3内置丰富的数据处理组件支持任意合理的数据格式转换，包括但不限于：时间类型的转换、字符编码转换；支持任意合理的数据类型转换；支持数据内容转换，如通过关联关系，将A数据源中的数据转换为数据源B中的数据；支持多字段的混合运算，运算规则可灵活配置，包括但不限于：sum、max、min、avg等；支持各种字符操作，包括但不限于：字符替换、字符截取、字符连接；支持记录和字段的抽取，支持对抽取的数据进行字段扩

44、展；支持数据粒度的转换：将业务系统数据按照数据仓库粒度进行聚合。保证转换后的误差在规定的范围内；支持空值处理：捕获空值，根据规则替换为对应数据；支持数据格式化：统一数据源中同类数据的格式，具体包括时间、数值、字符、计量单位等数据；支持数据替换：根据规则用标准数据替换原来的数据，支持各种码表映射，例如用标准编码替换业务系统自定的编码；支持复杂条件过滤，过滤条件可灵活配置；支持脏读；支持环境变量动态修改；支持数据去重处理，可按照用户定义的规则自动判断重复数据，并按照用户定义的规则处理重复的数据；支持记录间合并、支持将一条记录按照可配置的规则拆分为多条记录，支持行、列变换；支持一

45、个数据表中多个列的合并；支持跨异构数据库的关联；支持将多个异构数据表合并为一个表；支持将一个数据表拆分为多个数据表；支持多种规则排序；支持多种统计方式；具备度量衡等常用的转换函数；在转换过程中支持数据比较的功能；支持数据预览；支持数据清洗及标准化；支持按行、按列的分组聚合；具备良好的参数处理机制等； ETL处理过程支持各种字符集的转换；支持样品数据抽取4数据转换异常处理支持校验点，当外部数据记录特别庞大时，如果因为某种原因发生故障中断后，可以从最近的校验点开始恢复处理（3）数据加载数据加载功能包括文件加载、流加载、压缩加载、不落地加载等。数据加载功能具备将采集、处理后的数据源文件保存到不同数据库（RDBMS、MPP、HADOOP等）中。对于不同的数据库加载、不同的方式加载，在数据加载过程的工作原理基本相同，仅在实现层面针对不同数据库或者方式进行个性化控件处理。在加载数据库类别上支持DB2、Greenplum、HDFS、HBase、Teradata、Vertica、MySql等多种数据库。全量数据加载全量加载是将数据一次性加载到接口机上，是准实时加载，主要应对数据加载数据源以较大文件形式对外提供数据时可采用此种采

展开阅读全文