《分布式并行数据库集群在海量数据处理上的应用.ppt》由会员分享,可在线阅读,更多相关《分布式并行数据库集群在海量数据处理上的应用.ppt(54页珍藏版)》请在三一办公上搜索。
1、,分布式并行数据库集群在海量数据处理上的应用,武新-南大通用数据技术有限公司,目 录,1 列存储 vs 行存储数据库性能特征分析,2 GBase MPP并行数据库集群,3 海量数据统计、分析应用案例,4 总结&QA,GBase 8a 分析型数据库产品形态,GBase 8a 列存储数据库简介,GBase 8a是南大通用公司面向海量数据分析型应用领域,以独特的列存储、高效压缩、智能索引、并行架构等技术为基础,自主研发的一款极高性能关系型数据库产品。具有满足各个数据密集型行业日益增大的数据分析,数据挖掘,数据备份和即席查询的需求。,GBase 8a Cluster 基于MPP的SN并行数据库集群简介
2、,GBase 8a Cluster是在GBase 8a列存储数据库基础上开发的,基于现代云计算理念和shared nothing架构的并行数据库集群。以其独特的偏平架构,高可用性和动态扩展能力,为超大规模数据管理提供一个高性价比的通用平台。,.,架构特征应用程序SQL,数据库节点,Interconnect,无Master,节点对等的扁平架构。高性能,高密度节点。完全并行的MPP架构,在线节点动态伸缩。多副本数据,透明高可用。数据分发节点,外部数据来源,ftp,nfs etc,数据库系统一直面临的性能瓶颈问题数据库性能优化的核心思想是提升查询SQL的I/O效率,1-I/O,被动优化手段 硬件改进
3、,2 索引怪圈,效率3 性能与优化,1.系统扩容2.系统升级、替换,系统性能提升有限,的矛盾海量数据处理性能瓶颈I/O 效率、传统Index,主动优化手段 提升数据库效率1.修改数据模型、修改SQL、影响CBO、产生更有效SQL执行计划2.使用Index,MV,Partitionning3.使用并行,充分利用SMP特征系统性能提升明显,与I/O 有关的2个定义,1 I/O 速度=I/O数据量/时间(MB/s)2 I/O 效率=有效数据/实际I/O数据量(%),I/O速度与效率没有相关性,通过硬件扩容只能提升I/O性能,并不能提升I/O效率,I/O效率是衡量不同数据库面对海量数据统计、分析性能差
4、异最关键的指标、也是现代数据库研发最核心的问题之一。,性能核心问题 1:I/O效率低下使用不同index定位需要的数据产生高效的SQL执行计划提升每次I/O包含的有效数据量对数据进行预计算(MV)使用分区技术,压缩技术,7,统计分析类SQLI/O 效率,行存储数据库 10%,列存储数据库 50%,I/O效率问题分析案例一张具有30列的普通二维表,查询只涉及表中的3 列Select,Col3,col6,sum(col7)as bfrom mytab,结果集,假定经过条件过滤,需要从,8,Where col3=100101Group by col3,col6Order by b desc,过滤条件
5、基本算子,磁盘中读取十万行记录。,实际I/O效率在,1-10%之间!,Free space,rowN,行存储数据库I/O特征,c3,c6,c7,行存数据库IO读取方式:数据是按数据块读取 数据块中每行数据包含表的所有列,HeadTx Layer,尽管查询只访问表中3个列,但所有30列都需要从磁盘读出 表列数越多,行存I/O效率就越低,性能越差,9,datafile,I/O,row0DB blocks,head,1111,2222,GBase 列存储 I/O 特征,按列存储技术:表的每一列物理上分开存储 每一列是以数据包(DC)为单位组织的 只有访问查询所涉及的列产生IO,实际I/O效率在30-
6、90%之间!C7(DC=2),查询没有涉及的列不需要访问,不产生IO 表列数越多,GBase列存I/O效率越高,越有性能优势333,I/O,999,C1,C2,C3,C1,C2,C6,C7,C8,.,C29,C30,10,Column files,Data Cells(DC),列存储架构=提升I/O效率=降低I/O需求,上面的查询用例中,10万行数据最终会产生多少I/O?,假设每个字段长度平均为10 bytes,10万行数据连续存储,行存数据库需要读取的I/O:100000*30*10 bytes=28.6,MB,GBase 8a需要读取的I/O:100000*3*10 bytes=2.86M
7、B,在这个案例中,GBase 8a需要的I/O只是行存数据库的1/10。,10万行数据离散分布,假设分布率为10%(即每10行数,据有1行满足过滤条件):,行存数据库需要读取的I/O:100000*10*30*10 bytes=,286 MB,GBase 8a需要读取的I/O:100000*10*3*10 bytes=,28.6MB,性能核心问题2:传统Index带来的矛盾,优点,问题,使用Index不使用Index,提升I/O效率无需维护数据入库速度快,对应用不透明 维护代价极高 需要人工优化查询I/O效率低、导致性能低下,查询性能,海量数据,数据入库速度系统优化复杂,能否不使用传统Inde
8、x就能获得高效率I/O、进而提升数据库性能12,GBase 8a基于数据包的列存储+粗粒度索引,8a 粗粒度智能索引结构,8a 底层列存储结构,字段1(date)100101100101,100102100102100103,字段2(int)10,105,2530,501,5,3,4,5,粗粒度:扩展性很高,对数据入库性能几乎不影响局部性:实现高效的数据边入库边查询、统计。数据入库速度不随数据量增加而下降。全部字段索引:不再需要手工建立索引。即席查询,R-OLAP不再是无法优化的问题,复杂查询自动优化效果明显。基于知识理论的CBO效率大大提升。,e,5,5,7,655360+24351,sum
9、,10,GBase 8a CBO使用智能索引原理Select,a,sum(b)as b,结果集,from mytabA=100101?Where a=100101 过滤条件,智能索引信息和结构a(date)b(int)c d,Group by aOrder by b desc,基本算子,100101100101,100102,10,105,25,True=完全确定-100%满足过滤条件Possible=有可能-部分满足过滤条件,100102100103预计算数据Min,max,sum,.,30,50 1,5 100101,100101100101,100102,10,10,6553605,25
10、,1155261,False=完全排除-100%不满足过滤条件Sum(b)=?6b列一个需要读取的数据包126,GBase 8a智能索引特征,GBase智能索引,传统B-tree 索引,传统Bitmap 索引,索引粒度索引的可扩展性索引的适用范围索引占有的空间使用的透明性索引的建立,维护数据统计信息,每个数据包非常高所有字段数据的百分之一完全透明完全自动包含,可直接使用,每行数据一般数据重复率低的字段=数据复合索引受SQL限制手工不包含,每行数据一般数据重复率高的字段数据的几十分之一透明,需要解压缩到内存中手工不包含,免维护,自动优化,高扩展性,高效自适应压缩-提升I/O性能,create t
11、able lineorder(lo_orderkey bigint,lo_linenumber int compress(2),lo_custkey int,lo_partkey int,lo_suppkey int,lo_orderdate int,lo_orderpriority varchar(15)compress(0),lo_shippriority varchar(1),lo_quantity int,lo_extendedprice int,lo_ordtotalprice int,lo_discount int,lo_revenue int,lo_supplycost int,
12、lo_tax int,lo_commitdate int,lo_shipmode varchar(10)compress(1,3);不同压缩算法选项,GBase压缩特征 压缩比可达到1:20,远远高于行存储 压缩算法按数据类型和数据分布不同而优化,自动选择最优压缩算法或用hint 指定 实现库级,表级,列级压缩选项,灵活平衡性能与压缩比的关系GBase压缩优点 可节省90%的存储空间,大大降低TB数据处理能耗 压缩态下对I/O要求大大降低,数据加载和查询性能可以进一步提升,DC,DC,DC,DC,SMP多CPU上的双向并行技术:提升CPU利用率并行threads,在不同CPUs上,并行thre
13、ads,协调thread(save),单表,并行加载,txt裸数据,扫描 统计扫描 统计扫描 统计高速数据分析 智能索引,压缩压缩压缩压缩引擎,DCDCDCDCDC DCDC DCDC DCDCGBase 8a,300GB/小时多表500GB/小时集群2TB/小时,管道操作并行threads,在不同CPUs上扫描,并行threads关联,聚合,协调thread,并行操作:Join,并行查询,Data,扫描,关联,聚合,Group bySort,数据在磁盘上,扫描Scanners,关联Joiners,聚合Aggregators管道操作,结果,物化ScanLike 查询,一个典型的SQL执行过程分
14、析,Select b.c2,sum(a.c3)as c3From A as a,B as b,投影列=projection,materializationA&B关联列=join,Where a.c1=b.c1And a.c2 between 20120101 and 20120131 条件过滤列=PredicatesAnd b.c2=北京,Group by b.c2Order by c3Limit 100,分组算子=Aggregation排序算子=SortTop N算子=Limiter,C1(int),C2(date),C3(int),Cn,1000,20120101,12,1001,2012
15、0101,35,表A,1190,20121231,56,C1(int),C2(varchar),C3,Cn,1000,北京,表B,10011190,上海天津,results,Final,多CPU并行:从串行到并行执行,Finalresults,串行执行计划,并行执行计划,SortLimit,OpsSort,LimitOps,Split,ParallelGroup byOps,Groupby OpsTmp,SMP 多核并行提升CPU使用效率,opsTmprowset,ParallelAggregation,rowsetParallel,HashJoinA&B,Splitops,HashJoinA
16、&B,Parallel join,Tmprowset,Tmprowset,Tmprowset,Tmprowset,Parallel I/O,ScanA,ScanB,ScanA,ScanB,SMP多CPU并行效果案例TPC-H 10scales 22条SQL 执行时间对比(秒),700600500400300200,603,4倍的加速148,测试环境2*4核CPU,16G内存,2*2TB SATA盘,1000,串行,140120100806040200,并行SSB 10Scales 13条SQL执行时间对比(秒)125.966倍的加速21.47,串行,并行,GBase 8a解决了I/O效率和传统
17、Index问题,高性能高密度,自动优化,基于列+数据包的压缩(高效,透明),GBase 8a列存储RDBMS,粗粒度智能索引(高效自动优化能力),21,基于数据包的列存储结构(提升I/O效率),全并行架构(提升CPU使用效率),目 录,1 列存储 vs 行存储数据库性能特征分析,2-GBase MPP并行数据库集群,3-海量数据统计、分析应用案例,4 总结&QA,1992 By David Dewitt and Jim Gray,典型的Shared Disk架构Interconnection Network,CPU,CPU,CPU,CPU,CPU,CPU,memory,memory,disks
18、数据,memoryShared storage:SAN,NAS,典型的Shared Nothing架构Interconnection Network,CPU,CPU,CPU,CPU,CPU,CPU,memory,memory,memory,disks,disks,disks,disks,数据分布策略Hash,Range,Random数据,新一代并行数据库集群出现的源动力?,Internet 推动了网络技术的发展、性价比的提升,千兆,万兆,Infiniband,交换机,网卡价格的快速下降,PC 服务器越来越“小型机化“,多CPU,多核技术的普及:80核的PC服务器 大内存的支持:2TB 内存,高
19、可靠性技术的普及和使用:冗余电源,冷却系统,ECC,等,Linux系统的成熟,稳定、可靠、多线程内核;高效的文件系统等,BIG DATA 的推动-数据爆炸式增长,单个SMP系统已经无法应付数据增长带来的压力,而老一代基于SN和,专用硬件平台的并行数据库产品性价比太低,MPP并行数据库集群,解决的问题:,提升数据处理性能:Speedup 提升数据处理量:Scale out,海量数据处理的TCO问题:降低处理每一个TB的整体成本,技术难点,CAP:只能同时满足其中2个属性,数据的重分布:性能与数据库可用性?大表之间的join:是否能实现线性扩展?复杂SQL:执行计划的产生,优化,调度?,易用性,可
20、维护性:在线扩展,节点替换,升级?可靠性:如何解决比较频繁的硬件故障?,GBase 并行数据库架构:列存储+MPP,节点1,节点n,元数据管理,GCluster GCluster分布式SQL 分布式SQL调度,执行 调度,执行High speed Interconnect,产生分布式SQL执行计划 调度,执行分布式SQL 汇总执行结果,返回给客户端,GBase 8a列存储数据库,GBase 8a列存储数据库,与Gcluster是松散的结合 通过CAPI与上层通讯,执行收到的SQL 管理节点的各种数据 单独的集群管理层,GCWare集群管理服务,GCWare集群管理服务,故障监测,集群状态管理
21、高可用管理 数据一致性保证,GBase 并行数据库架构:列存储+MPP应用层,SQL统一接口层 JDBC,ODBC,.Net,CAPI,SQL,分布式并行数据管理层列存储DBMS,GClusterGcluster CoordinatorGBase 8a 列存储DBMS结构数据 Posix FS,分布式任务高速数据链接.,GClusterGcluster CoordinatorGBase 8a 列存储DBMS结构数据 Posix FS,集群节点,分布式,A,B,A,B,存储层分布式集群管理层,数据多个副本GClusterwareOS+存储,数据多个副本GClusterwareOS+存储,SMP+
22、MPP 的大规模并行处理能力Final Resultset,节点1,节点2,SortLimitops,节点n,同时可使用:计算能力1千个核,I/O 10GB/s,内存10TB,ScanA(p1),ScanB(p1),ScanA(p2),ScanB(p2),ScanA(pn),ScanB(pn),GBase Cluster MPP集群的优化策略任何分布式数据库系统真正的性能挑战:随着集群节点数增加,多个大表join以及复杂SQL的查询性能是否能线性提升?,性能,Interconnect,.,?集群节点数,数据静态hash分布,分布式执行优化,C1,C2,C3(int),C5,Cn,C1,C2,C
23、3,100010011000,2012010120120101,1235,.,AbcEdf,100010011002,北京上海天津,10021001,56,Create table b()distribute by hash(C2),1002,Create table a()distribute by hash(C1),C1,C2,C1,C2,C1,C2,1000,20120101,a(p1),1001,20120101,a(p2),1002,20120101,a(p3),1000,1001,1002,C1,C2,C3,C1,C2,C3,C1,C2,C3,Abc,1000,北京 b(p1),E
24、df,1001,上海 b(p2),xyz,1002,天津 b(p3),节点1,节点2,节点3,数据静态hash分布,CBO优化原理Select b.c3,sum(a.c5)from a,b where a.c1=b.c2 and.group by b.c3 order by sort,InterconnectAggregation 1a(p1)join b(p1),aggregation 1,2,3Aggregation 2a(p2)join b(p2),InterconnectAggregation 3a(p3)join b(p3),C110001000,C220120101,C110011
25、001,C220120101,C110021002,C220120101,C1,C2,C3,C1,C2,C3,C1,C2,C3,Abc,1000,北京,Edf,1001,上海,xyz,1002,天津,节点1,节点2,节点3,join,动态hash数据重分布Select b.c3,sum(a.c5)from a,b where a.c7=b.c2 and.group by b.c3 order by,a.c7,b.c2,join,sortaggregation 1,2,3,节点1,节点1,Aggregation 1Atmp(p1)join b(p1),Aggregation 2Atmp(p2)j
26、oin b(p2),Aggregation 3Atmp(p3)join b(p3),join,节点2节点3,节点2节点3,列存储减少节点间数据传输量 使用pipelining 并行技术提升效率 边传输、边计算 CBO动态取样,评估网络成本 动态hash+静态hash实现分布式算子、保证集群的扩展能力,500,一个典型的去重SQL执行案例Select count(distinct A.c5)as distcount from A,C1(int)10001001,C2(date)2012010120120101,C3(int)1235,C5.,Cn,表A 包含100亿行数据每行平均长度是1KBC5
27、字段长度=16Bytes,1190,20121231,56,行存储数据库,8a 列存储数据库,8a MPP 8节点集群,I/O 特征,FTS 全表扫描,SQL执行时间(分钟)FCS 全列扫描 每个节点读取18.6GB,读取9.3TB数据,读取149GB数据420,数据,执行时间,7小时,400,50分钟,9分钟,300200,1000,行存储数据库,508a 列存储数据库,98a MPP 8节点集群,56.943,SSB(Star Schema Benchmark)集群测试案例SSB100 scales 13条SQL查询性能(秒),500.000,很好的线性性能提升,400.000,470.2
28、23,冷数据下,I/O占执行时,300.000200.000100.0000.000,250.6201节点,297.880124.0272节点,194.09793.1173节点,166.92774.7034节点,间50%以上143.933 124.72765.6735节点6节点,冷数据 时间热数据 时间,硬件配置项,详细内容,CPU内存硬盘网卡,2*4 core Intel(R)Xeon(R)CPU2.40GHz32GB3*2TB SAS 7.2k(RAID 0)千兆网卡及千兆交换机,E5620,SSB集群测试案例:数据加载性能100 scales SSB数据加载速度(MB/s),120100
29、80604020,28.86,42.88,61.33,80.57,97.26,111.39,0,1节点,2节点,3节点,4节点,5节点,6节点,数据加载速度随节点数量增加而提升。实际测试可以2TB/小时,目 录,1 列存储 vs 行存储数据库I/O特征分析,2-GBase MPP并行数据库集群介绍,3-海量数据统计、分析应用案例,4 总结&QA,使用场景和6个典型案例,与传统行存储数据库对比与同类列存储数据库对比与同类MPP集群对比与传统一体机对比,R-OLAP,电信海量数据压缩,大并发电信类复杂KPI统计海量LOG类数据统计、分析金融类复杂即席统计、查询,地,区,数据),问题,用友NC案例:
30、R-OLAP应用 CUBE实时钻取,维度,查询层次,Gbase8a毫秒,传统数据库毫秒,虚拟的ROLAP立方体,时间,全部按年钻取按月钻取,78113,516,40,92243,07942,157,展示,产品,按天钻取,937,41,563,产品,全部按产品分类按产品钻取,7501531,40,90643,62643,078,时间,建模,全部按年钻取,73516,62,57845,203,区域维度,事实表,时间维度,时间+产品,按月钻取月下按产品月下按产品分类按天按产品,3,4841,07811,188,43,89043,23542,06345,078,渠道维度,(销售解决了R-OLAP性能星
31、型数据模型,产品维度,按天按产品分类,32,38,125,扩容问题!,解决了系统,云南联通海量数据高效压缩案例:1:20压缩比,业务系统1业务系统2,热数据,冷数据,.,Oracle 10gOLTP业务系统,DB link to 8a,GBase 8a压缩后的历史,数据业务系统n 1:20高压缩比:不需要扩容硬件,在线话单查寻从6个月扩到2年 Dblink To 8a:不需要改动现有业务系统,透明访问历史数据 8a 部署在Linux+PC服务器上:查询性能超过原来系统 2个节点集群保证高可用,裸数据量20TB,压缩后小于1TB,户SLA问,某电信客户账单查询系统:大于1300并发,J2EE 应
32、用Web Server 中间件4个节点集群2*4核 CPU,现网使用传统数据库+小型机+阵列:只能支持200个并发!无法满足集团规定的SLA需求:100%响应时间在3秒内,提供基于互联网的查询服务。目前只能提供营业厅查询。8a 4个节点集群PC+本地盘:达到1300个并发!完全满足集团规定的SLA需求:100%响应时间在3秒内,可以开发提供基于互联网的查询服务。8a 集群 vs 传统数据库并发测试,40GB内存SATA盘,12.0010.00,10.21,8.006.004.002.000.00,2.82,0.96 0.65,2.27,1.48,解决了用 最大响应时间(s)平均响应时间(s)2
33、.781.67题!,现网200用户,500用户,1000用户,1300用户,执行时间(s),8a 压缩,优势明显!,GBase 8a与同类列存储数据对比测试GBase 8a 与XX列存储数据库对比测试500040003000200010000,1,3,5,7,9,11,13,15,17,19,21,23,25,KPI 存储过程序号,GBase 8a,XX 列存储数据库,数据类型:电信用户行为数据 业务场景:用户行为分析,KPI指标 服务器:PC 服务器,2*4核,16GB内存,SATA本地盘结果:Gbase 8a 平均比XX列存储数据库快1倍左右,同时可提供1:16压缩比,时间(s),sq,l
34、1,sq,l2,sq,l3,sq,l4,sq,l,sq5,l6,sq,l7,sq,l8,sq,sql9,l1,sq0,l,sq11,l1,sq2,l1,sq3,l1,sq4,l1,sq5,l,sq16,l1,sq7,l1,sq8,l1,sq9,l2,sq0,l2,1,8a 集群,具有类似,性能指标,8a 集群与某MPP集群对比测试8a MPP集群 vs 某MPP集群对比测试结果,800.00700.00,xx 行存(秒),600.00500.00400.00300.00200.00100.000.00,统计分析类,精确查询类,xx 列存(秒)Gbase8a 集群(秒),SQL语句 数据类型:网
35、络LOG,18亿条数据 业务场景:网监分析 集群规模:4节点PC 服务器,2*4核,48GB内存,SAS本地盘结果:GBase 8a 平均比XX数据库按列存储快25%;比按行存储快1倍以上,查询时间(s),与XX一体机对比:银行反洗钱应用案例GBase 8a 与 XX一体机对比测试结果4035302520151050,1,3,5,7,9,11,13,15,17,19,21,23,25,27,29,31,33,35,37,39,41,43,反洗钱规则编号,Gbase 8a,XX 一体机,一体机的平均处理性能是Gbase 8a的1.46倍一体机配置:4个节点的一体机集群+阵列,大于1:10的性价比
36、!,GBase 8a 配置:1台PC服务器:4*4核,256GB内存,SAS本地盘,目 录,1 列存储 vs 行存储数据库I/O特征分析,2-GBase MPP并行数据库集群介绍,3-海量数据统计、分析应用案例,4 总结&QA,架构总结:GBase MPP+列存储,Scale up(SMP)列存储,高密度,高性能节点,高性能+扩展能力,扁平,对等高扩展能力MPP集群.Scale out(MPP),产品总结高性能、高密度节点,免维护、自动优化垂直+横向扩展能力,8a列存储+MPP 集群,高压缩比高TCO,应用场景总结,海量日志查询,分析数据仓库支撑R-OLAPCube即席查询、统计分析,互联网、
37、移动互联网、金融、电信、物联网等:PB支撑能力 海量数据边入库边使用ODS,EDW,DM:百TB支撑能力-百亿行多表join基于星形、雪花模型的多维分析:TB支撑能力-TB级别的CUBE实时钻取基于任何字段组合的随机查询、统计:百TB支撑能力 几百列的宽表任意组合查询,Interconnect,.,BIG DATA IT界面临的重大变革,全世界每天产生2.5 Exabytes(Exabyte=1018)的数据,世界上 90%的,数据是过去两年内产生的。,大数据源,海陆空监测数据,移动、互联网数据 物联网数据,社区网络数据 电子商务数据 音视频文件,电信,金融,2,3,4,数据分析领域新技术发展
38、趋势,1,去小型机化x-86平台的崛起数据处理一体机化新的列存储架构优势,“传统数据库+小型机+高端阵列“的模式在性价比上很难再延续。SMP的扩展能力接近上限。通用x-86服务器+Linux+高速网络+SSD存储 MPP集群的快速发展Exadata,Netezza,TD,SQL Server 2008,Verticaetc Oracle Exadata:hybrid columnar compression SQL Server 2008 R2:column index Vertica:column store+projection Greenplum:row+column store Syb
39、ase IQ:column store GBase 8a:column store Hbase:column KV store,高,低,高,高,数据库技术发展趋势 新型数据库、并行数据库,一种架构支持所有应用(One Size Fits All),多种架构支持多类应用列存数据库,分析OLAP,M.Stonebraker Ingres PostgreSQL Vertica,GBase 8aVerticaSybase IQ,MPP 集群,+列存,事务型数据库ORACLESQL SERVER,从垄断走向竞争,事务OLTP,DB2Sybase,互联网NoSQL,内存数据库GBase 8mTimesTenSolidDB,处理性能需求图,NoSQLHadoopBigTable,GBase 8a 进入中移动下一代DW选型行列,电信行业新一代DW平台的选型是下一代数据分析平台技术的,较量,,也是国内数据库产品和国外产品开始站在了同一个起跑线上!,Exadata,南大通用,电,传,电,传,网,天津:中国天津华苑产业区海泰发展六道6号海泰绿色产业基地J座,话:022-58815678,真:022-58815679,北京:北京市海淀区金源时代商务中心B座1206,话:010-88866866址:http:/技术支持热线:400-817-9696,真:010-88864556E-mail:,