《MPP初稿大数据实施指导意见v0.2.doc》由会员分享,可在线阅读,更多相关《MPP初稿大数据实施指导意见v0.2.doc(52页珍藏版)》请在三一办公上搜索。
1、中国移动经分系统大数据实施指导意见版本号:1.0.02013-5-24中国移动通信研究院目录1概述11.1大数据的定义11.2引入原则21.3编写目的21.4文档组织结构22大数据技术的引入32.1大数据时代技术发展32.2中国移动大数据特征42.3Hadoop与MPP对比43Hadoop实施指导意见53.1应用场景53.1.1批量数据ETL63.1.2详单查询63.1.3机器学习和数据挖掘73.1.4小结83.2方案设计阶段83.2.1整体规划83.2.2软件选择83.2.3硬件选择93.2.4节点规模评估103.2.5网络及组网123.3建设阶段133.3.1部署架构133.3.2软件参数
2、建议143.3.3上线前准备193.4运维阶段203.4.1任务调度203.4.2监控管理203.4.3告警管理223.4.4部署管理223.4.5配置管理233.4.6安全管理233.4.7日志管理243.5培训与技术支持254MPP数据库指导意见254.1应用场景254.1.1数据集市254.1.2分析挖掘数据集市264.1.3历史库264.1.4场景小结264.2方案设计阶段264.2.1整体规划264.2.2软件选择264.2.3硬件选择264.2.4容量评估方法264.2.5网络评估方法274.3实施阶段284.3.1服务器常见配置284.3.2数据分布建议294.4运维阶段304.
3、5培训与技术支持315系统集成实施指导意见建议315.1系统集成面临的挑战315.2数据互通325.2.1目的325.2.2建议方案335.2.3实现技术355.3统一管理监控375.4透明访问386附录A-大数据技术介绍396.1Hadoop及生态圈396.1.1Hadoop 简介396.1.2Hadoop生态圈系统486.1.3Hadoop1.0 特性506.1.4Hadoop2.0 特性;516.1.5Hadoop选型546.1.6Hadoop HA 方案对比546.2MPP数据库586.2.1MPP数据库定义586.2.2MPP数据库基本架构596.2.3MPP平台技术规范和要点616
4、.2.4MPP主要产品介绍616.3X86服务器介绍616.3.1CPU架构616.3.2大数据场景下机器选型626.4IB网络和万兆网 组网 (hw)636.4.1IB网络636.4.2万兆网666.4.3千兆网676.4.4适用场景676.5硬盘686.5.1硬盘类型介绍686.5.2硬盘比较分析696.5.3硬盘选购建议706.6虚拟化706.6.1概念706.6.2虚拟化技术介绍716.6.3适用场景727附录B-参考案例727.1Hadoop实施案例727.1.1案例1:河南互联网内容分析727.1.2案例2:湖南移动经营分析云平台737.1.3案例3:联通总部3G上网详单查询分析7
5、77.1.4案例:4:广东移动清帐单查询分析787.1.5案例:5:河南经分ETL797.1.6案例6:上海电信网优项目797.1.7案例7:baidu的Hadoop部署807.2MPP实施案例817.2.1安徽移动数据集市817.2.2山东移动经分云数据仓库系统827.2.3江西移动信令监测系统837.2.4重庆电信数据集市项目848附录C-FAQ868.1Hadoop软件类868.1.1Hadoop的balance影响868.1.2Hadoop MapReduce 数据倾斜:878.1.3如何解决Shuffle易见错误878.1.4如何解决Too many fetch-failures88
6、8.1.5如何解决找不到数据块易见错误888.1.6如何解决OutOfMemoryError内存溢出问题898.2Hadoop硬件类898.2.1硬件损坏处理898.3MPP类898.3.1数据库运行缓慢898.3.2Segment故障切换与恢复908.3.3gp导入数据中失败908.3.4对一张表长时间不能清空919附录D-其他参考配置919.1.1Cloudera建议配置919.1.2hadoop部署注意项9310编制历史93前言本报告针对经分系统各省对大数据技术引入的需求,整合了2012年经分云ETL试点、2012年经分MPP数据仓库测试以及hadoop及数据仓库混搭架构方案研究三个课题
7、的输出成果,针对大数据处理技术中HADOOP和MPP技术的规划、实施和运维管理提供指导意见,用于指导中国移动各省公司引入大数据技术的实践。1 概述(加术语,解释权,应用场景放在后面)1.1 大数据的定义(大数据的范围,哪些属于大数据范畴)大数据在业界有不同的定义,其中比较有代表性的是是国际数据公司(International Data Corporation, IDC) 给出的大数据定义。IDC认为大数据具备4V特征,即海量的数据规模(volume)、快速的数据流转和动态的数据体系(velocity)、多样的数据类型(variety)和巨大的数据价值(value)。大数据处理技术可以认为是从各
8、种各样类型的数据中,快速获得有价值信息的能力。大数据(Big Data)正在影响着IT产业,利用Hadoop和关系数据库混搭来解决大数据难题是当前通常采用的方法。Gartner在评价2011年的数据仓库产品魔力象限的时候,将其作为一项重要的“远见”考察内容(其称之为逻辑数据仓库LDW)。随着信令数据、互联网数据等新型数据源的引入,业务需求对数据深度分析及探索的增加,经营分析领域的大数据呈现出数据规模增大及分析复杂度增加的趋势。经营分析领域的大数据具备如下的特征:1、规模特征:信令xdr、互联网等数据每天的规模非常大,已经超过了语音、订购类数据,而且还处在不断增长的趋势,数据入库阶段的转换加载及
9、轻度汇总压力增大。如某省2012年每天的CMWAP日志、CMNET日志、WLAN话单、GN口信令每天达1.3TB。2、类型特征:目前大部分数据为结构化数据,但是互联网的网页数据、社交网络数据等半结构化、非结构化数据也在不断增长。实时营销的业务需求需要接入和处理海量的流式数据。3、使用特征:随着业务的发展,出现了海量历史数据的高并发查询及深度挖掘、对当前数据的深度分析及自助探索等数据消费方式。详单等数据需要存储较长的周期供查询或数据挖掘使用,传统使用磁带库存储历史数据的方式已经越来越不能满足数据使用的需求。经营分析系统接入的数据规模不断增大,数据类型也由单一的结构化数据向非结构化数据、流式数据等
10、发展,同时根据业务场景不同其存储及计算的方式也各不相同,需要引入多种大数据技术来共同支撑大数据的分析及处理。1.2 引入原则大数据技术的引入需要坚持分阶段逐步引入的方式,以解决当前的业务发展的痛点为基础,同时结合长远的技术架构规划,首先在部分业务场景中引入特定的大数据处理技术。可以参考如下的几个引入原则:1、先增量后存量。现有的数据处理系统引入大数据处理技术,面临着模型改造、流程改造等一系列的问题,可以首先在新上线应用引入大数据处理技术2、先边缘后核心。对于原有功能的迁移,可以先迁移非关键的应用系统。不涉及到关键生产任务,可以忍受数据处理延迟,故障修复时间较高等可能出现问题。3、先简单后复杂。
11、数据处理较简单的应用也可以首先尝试引入大数据处理技术,降低实施的复杂度,积累运维经验通过在大数据处理技术的规划、实施及运维过程中积累经验及教训,不断提升和完善大数据技术的应用水平,逐步拓展大数据技术应用领域。1.3 编写目的目前大数据处理技术还在蓬勃发展,各种新兴的处理技术也在不断的涌现,本文整合了2012年经分云ETL试点、2012年经分MPP数据仓库测试以及hadoop及数据仓库混搭架构方案研究三个课题的输出成果和部分省公司试点经验,针对大数据处理技术中HADOOP和MPP技术的规划、实施和运维管理提供指导意见,用于指导中国移动各省公司有序引入大数据技术。1.4 文档组织结构本文第一章为概
12、述,介绍了大数据基本概念,中国移动经分系统引入大数据技术的基本原则以及编写目的。第二章针对经分系统场景所面临的大数据困境,分析了需要多种技术解决方案。第三章围绕Hadoop展开,总结出经分系统中适合Hadoop的应用场景,进而提出规划阶段、实施阶段、运维阶段的相关建议。第四章围绕MPP数据库展开,总结出经分中适合MPP数据库的应用场景,进而提出规划阶段、实施阶段、运维阶段的相关建议。第五章给出MPP、Hadoop与现网已有系统集成的相关建议。附录A为大数据技术介绍,附录B为参考案例,附录C为FAQ,附录D为其他参考配置材料。2 大数据技术的引入2.1 大数据时代技术发展随着社交网络的逐渐成熟,
13、移动带宽的迅速提升,物联网应用的更加丰富,更多的传感设备、移动终端接入到网络,由此产生的数据及增长速度将比历史上的任何时期都要多、都要快,IDC最新的数字宇宙(Digital Universe)研究:预计到2020年,世界上的数据存储总额将达到35 ZB。IDC给出了大数据技术的4V特性:大数据技术用于在成本可承受的条件下,通过非常快速(velocity)的采集、发现和分析,从大量化(volumes)、多类别(variety)的数据中提取价值(value)。在大数据时代,传统IT基础架构中小型机、数据仓库所具备的高密集计算优势,面对海量、多样化数据以及高速响应的需求是难以满足的,包括:传统IT
14、系统采用scale-up设计路线,扩展性较弱;小型机Unix系统的封闭性导致系统扩容时,利旧性差;且成本很高。而云计算的分布式处理方式的Scale-out设计路线可以很好解决海量数据的快速分析处理,且基于x86架构的设计具有良好的标准化基础,系统扩容时可以直接增加节点,且成本较低。大数据时代也涌现了多种技术,典型技术如下:l Hadoop:基于HDFS和Mapreduce,被互联网厂商广泛用于非结构化数据处理和半结构化日志处理。优点是编程灵活,针对问题优化,扩展性好,且基于廉价的x86标准硬件。l MPP数据库:基于关系代数,面向结构化数据处理设计。近年演进方向包括:采用MPP提高扩展性、高性
15、能优化支持快速复杂查询、引入x86降低成本、一体机性能优化及高集成度、列存储、打通与Hadoop交互l NoSql:抛弃了关系数据库复杂的关系操作、事务处理等功能,仅提供简单的键值对(Key,Value)数据的存储与查询,换取高扩展性和高性能 。例如,Cassendra, Hbasel 流计算技术:在流数据不断变化的运动过程中实时地进行分析,捕捉到可能对用户有用的信息,并把结果发送出去。例如SystemS, Storml 内存数据库:内存计算充分发挥多核CPU的能力,内存计算可以对大规模海量数据做实时的分析运算。例如HANA、ExaAnalytic、TM12.2 中国移动大数据特征中国移动经分
16、系统目前在数据量、数据类别、数据应用需求方面具有典型的大数据特征,包括:1、 容量巨大:现在全网经分数据仓库结构化数据总量已达8PB,引入上网日志和信令数据后数据更会呈现爆发性增长;2、 类别多样:除了传统的清单等结构化数据,还包括日志类半结构化数据,网页、GIS信息、语音信息等非结构化数据;3、 数据处理方式多样:除了传统的按日和按月的批处理以外,为了及时高效处理数据,逐步引入了小批量多次处理和实时流计算等多种数据处理方式;4、 访问需求多样:除了传统的OLAP型数据访问需求外,对于客户标签、营销目标用户等,还有类似OLTP类大量小查询访问需求,此外即席查询(AD-HOC)等访问需求也逐步高
17、涨。5、 数据价值不同:不同内容的数据,不同时间的需求具有不同的价值,如果用一种存储方式存储要么浪费了资源,要么满足不了访问需求。可以看出,任何一种单一技术都难以适应中国移动全部的数据采集、存储、处理和对外服务的需求,多种技术并存才是发展趋势。本文针对经分系统中迫切需要的,且相对技术最为成熟的两种主流大数据技术Hadoop和MPP展开,给出在中国移动经分系统场景下Hadoop与MPP技术的最佳实践建议。2.3 Hadoop与MPP对比各自适合与不适合的场景1:高并发,hadoop不适合2:大表关联3:各自的机制,架构上的差异(附录是否阐述明白了?)4:不同产品的特点5: 传统数据库的加进去,把
18、Oracle DB2,放进去,MPP是中等价格,高、低没意义,按照TB估算一下。数据处理的规模,优势劣势。6:运维复杂度,可管理性、除障能力提高了。Hadoop和MPP两种技术的介绍请参见附录A。虽然这两种技术同属于分布式计算,但由于依据的理论和采取的技术路线不同而有各自的优缺点和适用范围。两种技术的对比如下:HadoopMPP开放性高低运维复杂度高,与运维人员能力相关低,厂商提供扩展能力高部分高成本低高SQL支持相对低高数据规模PB级别部分PB计算性能对非关系型操作效率高对关系型操作效率高数据结构结构化和非结构数据结构化数据综合而言:Hadoop 在处理非结构数据和半架构数据上具备优势,尤其
19、适合海量数据批处理等应用需求。当然随着Hadoop技术的成熟,基于Hadoop的实时分析等技术也逐渐崭露头角。比如仿照Dremel的开源项目Apache Drill以及Cloudera Impala。MPP适合替代现有关系数据结构下的大数据处理,具有较高的效率,但其在大规模集群(超过100个节点)下的可用性还存在疑点。针对具体的经分业务来讲: MPP适合多维度数据自助分析、数据集市等;Hadoop 适合海量数据存储查询(详单存储和查询)、批量数据ETL、非结构化数据分析(日志分析、文本分析)等。3 Hadoop实施指导意见本章主要对Hadoop平台在实施前、实施过程中和实施后的运维过程中需要注
20、意的问题提出指导意见。3.1 应用场景Hadoop技术和产品在经分中可以用于以下场景(包括但不限于)。3.1.1 批量数据ETL3.1.2 详单查询3.1.3 机器学习和数据挖掘3.1.4 小结从实际案例看,hadoop目前在电信业务领域可以提供下面几大类成熟应用: 基于Map/Reduce以及Hive的类sql引擎,提供大数据的ETL、数据分析、数据挖掘能力。应用于BI生产数据的抽取、清洗、转换、分析、非结构化数据的处理分析以及各系统之间的数据交换。3.2 方案设计阶段3.2.1 整体规划整体规划包括选择合适的应用场景,确定数据范围,及系统的外围边界等等。(未完)3.2.2 软件选择3.2.
21、2.1 软件适用特性依据Hadoop系列软件的特性,我们可以做出基本的选择,进而通过测试验证。 HDFS用于非结构化文件存储, Hive主要用于数据仓库,。 Hbase: Mahout:基于MapReduce上的挖掘算法实现,主要用于数据挖掘; Oozie:适用于简单ETL场景,经分场景中,建议使用现有ETL中的场景来调用hadoop3.2.2.2 Hive与mapreduce的选择3.2.3 硬件选择3.2.3.1 硬件设备一般选择主流设备,针对整体规划中,不同用途可选择不同的配置。项目内容X86服务器高度CPU个数及核心数硬盘数内存电源功率及数量网卡型号 内存的选择 CPU的选择 配置优化
22、结论:3.2.3.2 硬件冗余3.2.3.3 Raid方案3.2.4 节点规模评估从hadoop上运行的业务功能角度分析,建立硬件配置模型,评估可以分以下几个步骤:第一步,划分配置对象,不同功能和角色的机器进行不同的配置。我们以整理在大数据平台上运行的业务场景,根据不同的功能域或业务处理过程划分配置对象。比如某项目hadoop集群配置对象包括以下内容:功能模块配置对象功能点HADOOP计算集群ftp数据抽取 1. FTP从ftp服务端下载文件到Hdfs存储 数据处理1.数据校验。对数据进行唯一性校验、外键校验、字段长度类型等记录级校验。输出校验成功和错误的记录2.平行转换。完成数据记录的清洗、
23、过滤、字段变换等处理类sql操作。汇总表数据数据加载到DB2数据库经过处理、汇总的数据输出到db2数据库。流程调度平台流程调度实现业务流程调度等hadoop监控平台集群监控实现集群监控等以上考虑hadoop计算集群为主要需要进行容量评估平台。可以依照计算能力和存储能力二维分析方法进行容量评估。ftp加载我们以加载性能要求进行评估,测算每个节点并发加载速度,在根据业务要求选择节点个数。数据处理部分基本思路是根据计算能力和存储能力评估之后,在两者中选择大容量作为评估结果。1,计算能力评估依据小规模基准测试针对所需的业务类型进行模拟测试,依据近似线性扩展原理,根据业务需求可计算出计算能力节点个数。例
24、如:业务需求为10分钟响应,根据小规模基准测试中(例如10节点),满足10分钟需求的数据处理量为1TB,则可得每节点处理能力为1TB/10/10*60,依据次处理能力,进一步可估算出整个数据范围,所需的计算节点个数。而业务熟的增加,我们依据串行能力评估。如果有并发需求,则在小规模基准测试时应同时考虑。2,存储能力平台考虑因子:压缩比,副本数,冗余量业务考虑因子:存储周期依据以上因子,针对数据存储容量进行预估,在确定节点个数3,内存能力内存一般按照通用配置,一个cpu核配2G内存设计,而hadoop的map和reduce槽位个数设计与内存大小有关,一般一个槽位配1G内存。4,输出总体配置建议考虑
25、各配置对象是否有并发情况,如果没有并发,计算需求、存储取配置对象中最大值,存储需求取配置对象总和,最终输出业务相关所需计算、存储等资源。再综合考虑hadoop自己本身所需资源得出最终配置。3.2.5 网络及组网所以一般建议是需要给Hadoop提供专用的私有网络,用于内部数据的交互,网络带宽为万兆网。万兆网不仅仅10倍与千兆网的带宽,在峰值流量下,其时延也大大低于千兆网。根据hortonworks的建议,对于较小的集群至少保证所有节点点到点千兆网连接,对于更大的集群使用千兆网可能造成性能的下降,在超级的数据中心,Yahoo的做法是同一个机架的20台刀片中每台通过2个千兆网卡绑定的方式和其他刀片通
26、信,对于机架使用2条万兆网连接。目前主流交换机为万兆交换机。3.2.5.1 组网建议3.3 建设阶段3.3.1 部署架构图中Hadoop节点主要分成两类,管理节点(MASTER)和数据存储运算节点(SLAVE)。Master节点上的组件逻辑上划分成 namenode, standby namenode, jobtracker, hamster,zookeeper,监控管理服务器. 逻辑组件可以与物理服务器一一对应,也可以一个物理服务器承载多个逻辑组件。 是否拆分,取决于负责状况SLAVE节点上的逻辑组件包括,Datanode,tasktracker, regionserver,MASTER服务
27、器一样。逻辑组件可以与物理服务器一一对应,也可以一个物理服务器承载多个逻辑组件。是否拆分,取决于负责状况组网要求客户端或者中间件,必须能够与所有MASTER节点和SLAVE节点进行通信。3.3.2 软件参数建议3.3.2.1 配置参数Hdfs配置文件:hdfs-site.xml参数名参数值说明dfs.block.size 根据文件规模修订,大文件建议修订为128MB或者更大默认的块大小 文件:hadoop-env.sh参数名参数值说明HADOOP_HEAPSIZE2000namenode所使用的最大内存MapReduce配置文件:core-site.xml参数名参数值说明Hadoop.tmp.
28、dir/data2/tmp转移map过程中的系统盘压力,但是对挂载磁盘的IO性能压力比较大文件:mapred-site.xml参数名参数值说明mapred.task.timeout/MapReduce任务默认的超时设置mapred.min.split.size /split输入最小尺寸,决定了Map任务数量mapred.reduce.tasks /设定reduce任务数量Tasktracker的中间输出目录: mapred.local.dir。map和reduce任务MapReduce产生的中间数据会特别多,为了减少磁盘压力,如果机器有多个磁盘,也可以像datanode的数据目录设为”/dis
29、k1/local,/disk2/local,/disk3/local”,参考配置属性文件:hadoop-env.sh参数名参数值说明HADOOP_HEAPSIZE4000Jobtracker所使用的最大内存HBase配置文件:hbase-env.sh参数名参数值说明HBASE_HEAPSIZE8192HBase所使用的最大内存HBASE_MANAGES_ZKFalse设置HBase不自行管理zk服务,在TBE中,是额外提供zk集群的服务文件:hbase-site.xml参数名参数值说明hbase.regionserver.handler.count20RegionServer的请求处理IO线程
30、数,对于高并发,适当调高以提升性能hbase.client.pause3000客户端在重试前的等待时间hbase.hregion.memstore.flush.size/ Region上MemStore的大小是64MB;hbase.regionserver.handler.count /一个RegionServer的最大并发handler数目;hbase.regionserver.coprocessorhandler.count /一个RegionServer的coprocessor最大并发handler数目;3.3.2.2 压缩算法以下是常用压缩算法情况,目前测试用snappy较多。(待定)
31、参考辽宁ETL试点 常用压缩算法工具算法文件扩展名多文件可分割性(支持MAPREDUCE并行处理)SnappysnappysnappySnappy是是LZOlzopLZO.lzo不是3.3.2.3 副本个数3.3.2.4 块大小3.3.2.5 Slot数3.3.3 上线前准备上线前准备,包括对数,正确率。数据入库完整性数据入库逻辑失真特殊字符失真汇总逻辑参见辽宁ETL总结2.9 3.4 运维阶段Hadoop系统因为其分布式特性,容忍一定数量节点的异常,并影响其整体可用性,异常处理被定义为正常运维操作,所以相应的运维管理有其特殊性,对自动化程度要求比较高,关键节点可靠性要求高。对应运维管理中,应
32、该包括监控、告警、部署、配置、日志、安全以及升级等功能。具体每个子模块,应该包括相应基础能力。目前开源hadoop自带UI中,监控粒度比较大,只能查询到节点运行是否正常,MapReduce任务执行进度和结果,以及HBase数据访问日志。无法对整个Hadoop平台当前运行指标进行综合评估与展示。 建议使用开源软件或者使用第三方厂商提供的运维和管控平台。目前Hadoop中,HDFS、MapReduce 以及HBase均支持JMX协议下的内部运行参数监控接口,支持与第三方监控工具集成。 开源监控工具包括:Ganglia、Nagios等。3.4.1 任务调度3.4.2 监控管理监控管理包含2个方面:基
33、础指标监控和关键业务参数监控。同时监控管理作为第三方辅助模块还应该具备如下能力: 低性能损耗:监控模块开启时,对宿主机器性能平均损耗不能超过5%; 低资源抢占;对于共享资源如cpu、网络带宽、内存等其峰值不能超过10%; 可控开关: 在特殊情况下,支持监控平台开关能力; 数据可视化: 监控数据简单易懂 第三方数据采集接口: 支持第三方系统数据调用,便于与企业现有监控平台数据采集和整合; 基础指标监控l 机器性能指标;如磁盘IO、CPU使用率、硬盘使用率、网络带宽占用率l 集群性能指标: 基础机器指标进行计算后的相关指标数据,如平均使用率、机器使用热度分布、机器空闲率等、JVM使用率等; 业务指
34、标监控,包含大数据平台中的主要模块关键业务参数值l Hadoop-HDFS:l Hadoop-MapReducel ZooKeeperl HBasel Hadoop : NameNodel HBase : HMaster;l MapReduce : JobTracker;l MapReduce2 : ResourcesManager;l 元数据库: 大数据平台中存储元数据的关系数据库(如MySql)3.4.3 告警管理告警管理主要用于针对大数据平台重要事件发送告警信息,提醒运维人员即使进行后续处理操作。告警管理应该具备如下基础能力: 事件触发:主要用于针对服务、机器异常等事件 阀值触发;主要用
35、于核心监控数值在出现异常前的提前警告; 第三方接口: 用于与第三方系统集成; 告警方式 声音; 短信; 邮件; 自定义;目前hadoop中没有任何告警管理功能,开源Nagios具备此能力,但需要与Hadoop平台进行整合,也可以使用第三方告警平台。 另外与移动经分已有告警接口整合均需要进行二次开发。3.4.4 部署管理部署管理主要用于大数据部署、扩容、升级等操作。 通过自动化方式降低大数据平台的运维复杂度。主要包括: 大数据系统安装; 平台扩容; 平台节点移除; 平台节点升级;Hadoop的自有的部署管理都是在命令行方式下执行的,这中操作方式人运维人员要求非常高,在进群规模超过30台以上,异常
36、问题的排查将会非常号时间。 可以采用开源部署工具如puppet 降低部署管理复杂度,也可以直接提供商相关企业版工具。3.4.5 配置管理配置管理主要用于通过自动化方式实现大数据平台配置信息快速同步,避免手动修改造成的人为错误,提高可靠性,具体功能包括 配置文件修改同步; 配置文件修改历史记录; 配置文件修改痕迹保留;3.4.6 安全管理安全管理包含2个层面 大数据网段访问控制:防火墙。 内部访问控制:包括节点与节点之间,应用与应用之间授权访问,启动hadoop 安全认证。认证模式不仅支持用户密码访问模式,最好能够支持强认证模式。3.4.7 日志管理日志管理用于搜集大数据平台的关键业务日志,便于
37、运维和上层研发人员定位系统问题,提高异常处理速度。主要功能包括: 日志搜集; 日志查询; 日志级别过滤; 模块日志搜集开关;在配置hadoop时候,将日志目录配置在统一目录下,便于查询,同时由于是分布式系统,日志是分散在不同节点上,这导致日志查询和管理上非常不方便。Hadoop中使用Log4j 和 sl4j作为日志输出模块,所有日志输出目录修改hadoop安装目录下的log4j.properties配置文件,配置到指定目录即可。 同时由于节点多,日志量大,需要定时清理日志。建议方案:l 修改日志级别和适配器,讲日志统一存储在共享存储介质上; l 使用第三方产品提供的日志搜集和管理模块;3.5
38、培训与技术支持4 MPP数据库指导意见本章主要对MPP数据库在实施前、实施过程中和实施后的运维过程中需要注意的问题提出指导意见。4.1 应用场景(建议放在后面,可以简单写一下,不列出小标题)MPP数据库产品在经分中可以用于以下场景(包括但不限于)。4.1.1 数据集市基础数据平台是三种整合,则数据集市被定位为逻辑集市。把数据集市的概念明确。MPP数据库在数据集市中引入,存储数据集市中的数据并对外提供数据服务,这种方式减少了数据仓库主库的压力,引入低成本x86平台降低整体投资。经分系统,图不合适4.1.2 分析挖掘数据集市(也是集市,规范中没这说法)4.1.3 历史库(历史库的含义,目前也没有这
39、个)4.1.4 场景小结4.2 方案设计阶段4.2.1 整体规划描述规划内容,选择场景,确定范围,定义流程。(未完)关联计算,什么类型的操作。客户标签。方案架构图4.2.2 软件选择MPP多种数据库常见的MPP软件比较4.2.3 硬件选择4.2.4 容量评估方法影响容量评估的因素1 做raid镜像损失空间 R2 操作系统与应用软件使用空间 O3 格式化系统损失空间 F4 数据库压缩比 C5 数据库系统空间 S6 数据库最优工作空间容量比 U 7 实际处理数据的大小 K 9 实际数据转换为数据库空间的比率 KR 10 裸磁盘空间 L评估步骤:(作为一个示例)计算硬盘格式化后提供的文件系统空间 F
40、D = L(裸磁盘空间) - R (镜像损失空间) - F (格式化损失空间)每个数据几点去除操作系统和应用软件的使用空间 DD = FD - O(操作系统空间和应用软件空间)(单独考虑)考虑文件系统转化为数据库空间的比率(T)最终数据库空间 G = DD * T (这一步再确认下)综合公式 G = (L - R - F - O) * T * U = K * KR / C下面以gp数据库容量计算作为示例: 有60T的数据,主机配置如下 2 c * 6 core 2.8Mhz 磁盘为1T 并有24插口,请给出需要主机和磁盘的数量。 解答:假定数据文件转载数据库后空间不变(KR=1),数据库压缩比
41、为 2(C=2), 实际数据库空间 G = 60 * 1 / 2 = 30 T,对于gp需要考虑镜像与系统表使用空间 G =30 *2 + 30 * 1/3 = 70 T假定使用raid5,故作raid损失1张盘,格式划不损失空间,操作系统与应用软件损失0.5T,最优工作比U = 0.7 ,设定盘为X,主机数量为Y(X-1)* 1 - 0.5)* Y * 1 * 0.7 = 70 TY= 70 / ( 0.7 * ( X - 1.5 ) = 100/(X-1.5)当每台主机挂 12块1T的盘需要100/(12-1.5) = 10台数据节点 (9.523 台),建议在生产环境下可以增加1块600
42、G的sas盘供系统使用考虑到稳定性,需要部署两台master主机,故整个集群需要12台主机4.2.5 网络评估方法由于MPP数据库在运作期间,在复杂的关联操作时,会将负载较高的节点的数据传输至负载较低节点进行处理,以使得负载均衡,及结果数据的汇总排序等,都对内部互连网络有较高的要求。推荐使用万兆网卡和交换机,每台机器配置两个万兆网口就可以保证网络带宽,以及HA的要求4.3 实施阶段4.3.1 服务器常见配置先写一下原则,再写个例子。 控制节点: 两台X86服务器,一台是master,另一台为Standby,保证系统冗余,避免单点故障。配置两颗6核以上的CPU,48GB内存。四到六块硬盘,采用S
43、ATA或者SAS均可,容量按需选择,做RAID5或者RAID1+0。配置两万兆口,至少一个千兆口。其中Standby节点由于负载很小,同时可以用来作为ETL服务器。 数据节点:最少4台起,配置两颗6核以上的CPU,主频不低于2.5GHz,因为做一些复杂Join和函数运算时,会大量消耗CPU,而每台数据节点存取的数据量都很大。与数据库类似,MPP数据库也需要较高的IO性能,建议最少配置12块SAS盘,单块600GB。如果业务复杂度不高,并发用户数不多,也可以酌情采用900GB的SAS盘,或者1TB的SATA盘。建议采用比较好的Raid卡,支持虚拟磁盘功能,即对一个Raid卷进行逻辑切分,可以在系统层显示为多个物理磁盘。这样可以提高磁盘利用率和整体IO性能。配置两万兆口。 以太网网络交换机:2台万兆以太网交换机,用于MPP内部数据交换。1台千兆以太网交换机,用来连接前台应用,和做为管理监控入口。 数据加载服务器:部分MPP数据库产品支持并行加载方式,针对此类产品,可以配置多台数据加载服务器,提高加载效率。可以把数据分布至多台数据服务器上,这些服务器通过万兆内网与MPP中的数据节点内连,可以大大提高加载速度。故此,ETL服务器的部署数量取决于对于数据规模和加载速度的要求,由于其上的数据都是大规模的连续写和连续读,所以建议采用大容量的SATA硬盘即可。4.3.2