最新MPP数据库对比.docx

上传人:小飞机 文档编号:5334008 上传时间:2023-06-27 格式:DOCX 页数:20 大小:249.38KB
返回 下载 相关 举报
最新MPP数据库对比.docx_第1页
第1页 / 共20页
最新MPP数据库对比.docx_第2页
第2页 / 共20页
最新MPP数据库对比.docx_第3页
第3页 / 共20页
最新MPP数据库对比.docx_第4页
第4页 / 共20页
最新MPP数据库对比.docx_第5页
第5页 / 共20页
亲,该文档总共20页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《最新MPP数据库对比.docx》由会员分享,可在线阅读,更多相关《最新MPP数据库对比.docx(20页珍藏版)》请在三一办公上搜索。

1、MPP数据库对比1概述随着海量数据问题的出现,海量管理能力,多类型,变化快,高可用性, 低成本,高端可扩展性等需求给企业数据战略带来了巨大的挑战。企业数据仓 库、数据中心的技术选型变得尤其重要!所以在选型之前,有必要对目前市场 上各种大数据量的解决方案进行分析。2主流分布式并行处理数据库产品介绍2.1 Greenplum2.1.1 基础架构Greenplum是基于Hadoop的一款分布式数据库产品,在处理海量数据方面相比传统数据库有着较大的优势。Greenplum整体架构如下图:查询解析、优化、分发Master Severs查询处理、数 据存储数据加载External SourcesNetwo

2、rk InterconnecSegment Severs数据库由 Master Severs 和 Segment Severs 通过 Interconnect 互联组成。Master主机负责:建立与客户端的连接和管理;SQL的解析并形成执行计划;执行计 划向Segment的分发收集Segment的执行结果;Master不存储业务数据,只存储数据字 典。Segment主机负责:业务数据的存储和存取;用户查询SQL的执行。2.1.2 主要特性Greenplum整体有如下技术特点: Shared-nothing 架构海量数据库采用最易于扩展的Shared-nothing架构,每个节点都有自己的 操作

3、系统、数据库、硬件资源,节点之间通过网络来通信。 基于 gNet Software Interconnect数据库的内部通信通过基于超级计算的“软件Switch”内部连接层,基于通 用的gNet (GigE,10GigE) NICs/switches在节点间传递消息和数据,采用高扩 展协议,支持扩展到1000个以上节点。并行加载技术利用并行数据流引擎,数据加载完全并行,加载数据可达到4。5T/小时(理想配置)。并且可以直接通过SQL语句对外部表进行操作支持行、列压缩存储技术海量数据库支持ZLIB和QUICKLZ方式的压缩,压缩比可到10: 1。压缩数据不一定 会带来性能的下降,压缩表通过利用空

4、闲的CPU资源,而减少I/O资源占用。海量数据库除支持主流的行存储模式外,还支持列存储模式。如果常用的查询只取表 中少量字段,则列模式效率更高,如查询需要取表中的大量字段,行模式效率更高。海量数据库的多种压缩存储技术在提高数据存储能力的同时,也可根据不同应用需求 提高查询的效率2.1.3 主要局限列存储模式的使用有限制,不支持delete/update操作。用户不可灵活控制事务的提交,用户提交的处理将被自动视作整体事 务,整体提交,整体回滚。数据库需要额外的空间清理维护(vacuum),给数据库维护带来额外 的工作量。用户不能灵活分配或控制服务器资源。对磁盘IO有比较高的要求。备份机制还不完善

5、,没有增量备份。2.2 Vertica2.2.1 基础架构与以往常见的行式关系型数据库不同,Vertica是一种基于列存储(Column-Oriented)的数据库体系结构,这种存储机构更适合在数据仓库存储 和商业智能方面发挥特长。常见的RDBMS都是面向行(Row-Oriented Database)存储的,在对某一 列汇总计算的时候几乎不可避免的要进行额外的I/O寻址扫描,而面向列存储 的数据库能够连续进行I/O操作,减少了 I/O开销,从而达到数量级上的性能 提升。同时,Vertica支持海量并行存储(MPP)架构,实现了完全无共享,因此 扩展容易,可以利用廉价的硬件来获取高的性能,具有

6、很高的性价比。如下图,展示的是单节点上的Vertica的基本体系结构。Vertica体系结构作为关系型数据库,Vertica的查询SQL也是在前端被解析和优化的。但与 传统的关系型数据库有所不同,Vertica内部是混合存储的,包括两种不同的存 储结构:写优化器(WOS)和读优化器(ROS)。(1) 写优化器 WOS (Write-Optimized Store)是位于主存储器上的一个数据结构,用于有效的支持数据插入和更新操 作;数据的存放是无序的,非压缩的。(2) 读优化器 ROS (Read-Optimized Store)是磁盘物理存储,存放的是排序和压缩后的数据库大块数据,因此这里的

7、查询相比于WOS性能更好。(3) Tuple Mover 进程是Vertica内部的一个进程,定期的以大数据块的形式把数据从WOS移到ROS,由于是对整个WOS操作,TupleMover 一次能非常有效的排序很多记 录,最后批量把它们写入磁盘。在Vertica内部,不论是WOS还是ROS都是按列存储的。2.2.2 主要特性Vertica的关键特性:1 列存储(Column-orientation)由于大多数的查询都是要从磁盘读取数据,因此可以说disk I/O在很大程 度上决定了一个查询的最终响应时间。2 压缩机制(Aggressive Compression)在数据存储方面,Vertica利

8、用内部的特定算法对数据进行压缩处理。这样 的机制会大大减少disk I/O的时间(D),同时由于Vertica对扫描和聚合等操 作也在内部进行了优化,可以直接处理压缩后的数据,这样CPU的工作负载(C)也减少了。如上例中的AVG聚合函数,Vertica是不需要将压缩数据先做 类似解压这种处理的,因此查询性能得到优化。3 读优化存储(Read-Optimized Storage)Vertica的数据库存储容器ROS Container专门为读操作进行了优化设计, 且其中的数据是经过了排序和压缩处理的,即每个磁盘页上不会有空白空间, 而传统的数据库一般会在每页上预留空间以便日后的insert操作来

9、使用。4多种排序方式的冗余存储为了高可用性和备份恢复的需要,Vertica会按照不同的排序方式对数据做 冗余存储,这不但避免了大量的日志操作,也为查询带来了便利。Vertica的查 询优化器会自动选择最优的排序方式来完成特定的查询。5并行无共享设计Vertica支持完全无共享海量并行存储(MPP)架构,随着硬件Server的增 加,多个CPU并行处理,性能也可以得到线性的扩展,这样用户使用廉价的硬 件就可以获得较高的性能改善。6其他管理特征除了有优越的性能以外,Vertica在数据库管理方面也进行了非常人性化的 设计。Vertica Database Designer是一个界面化的日常管理工具

10、,并且能为用户作 出详尽的DB层物理设计方案,大大减少了日后的性能调优方面的开销。Vertica通过K-Safety值的设置,完成了数据库的备份恢复机制,并保证了 高可用性。对于数据库中的每个表每个列,Vertica都会在至少K+1个节点上存 储,如果有K个节点宕机,依然能够保证Vertica DB是完整可用的;当损坏的 节点恢复时,Vertica自动完成节点间的热交换,把其他节点上的正确数据恢复 过来。通过这种机制也保证了 Vertcia库的节点数目可以自由伸缩而不会影响到 数据库的操作。Vertica通过两种技术来实现在线的持续数据装载而不会影响到数据库的访 问。Vertica通常运行在快

11、照隔离(Snapshot Isolation)模式下,该模式下查询 读取的是最近的一致的数据库快照,这个快照是不能被并发的update或delete操作更改的,因此查询操作也不需要占用锁,这种方式保证了数据装载(insert)和其他查询能互不干扰。另外,Vertica可以把数据直接装载到WOS 结构中,WOS中的数据是不排序或索引的,所以装载速度会很快,然后再由 Tuple Mover进程在后台把数据移入ROS中,由于TupleMover的操作是大块读 取(bulk-load)的,所以性能也很好。2.2.3 主要局限 不支持SQL存储过程及函数,用户需通过UDFs (User Defined

12、Function,基于C+)来自定义函数或过程。软件授权按原始未经压缩的裸数据量计算。列存储的一些劣势,复杂查询等性能不理想。对内存有比较高的要求。在国内还没有成功案例。2.3 Sybase IQ(15.4)2.3.1 基础架构SYBASE IQ是Sybase公司推出的特别为数据仓库设计的关系型数据库。SYBASE IQ的架构与大多数关系型数据库不同,它特别的设计用以支持大量并 发用户的即席查询。其设计与执行进程优先考虑查询性能,其次是完成批量数 据更新的速度。而传统关系型数据库引擎的设计既考虑在线的事务进程又考虑 数据仓库(而事实上,往往更多的关注事务进程)。Sybase在2010年推出的S

13、ybase IQ 15.3就采用了全共享架构的PlexQ技 术,该技术重新定义了企业范围的业务信息,全共享架构可轻松支持涉及海量 数据集、海量并发用户数和独特工作流程的多种复杂分析样式,大大增加了其 精品好资料-如有侵权请联系网站删除效益。与其他MPP解决方案不同,Sybase IQ的PlexQ网格技术能够动态管理可轻松扩展并且专用于不同组和流程的一系列计算与存储资源中的分析工作 量,从而使其能够以更低的成本更轻松地支持日益增长的数据量以及快速增长 的用户社区Sybase IQ 15.4采用业内领先的MPP列式数据库和最先进的数据库内分析技术,并革命性地加入MapReduce与Hadoop集成

14、,以应对大数据时代的分析 挑战,开启洞察关键业务的能力。Sybase IQ 15.4正在打破数据分析的壁垒,彻 底改变“大数据分析”领域。基于成熟的PlexQ技术构建的Sybase IQ采用下图所示的三层构架:OWES四1 gCENTER基本层:数据库管理系统(DBMS),这是一个全共享MPP分析DBMS引擎,是Sybase IQ最大的独特优势。第二层:分析应用程序服务层,其提供C+和Java数据库内API,并可实现与外部数据源的集成和联邦;包括四种与Hadoop的集成方法。顶层:Sybase IQ生态系统,由四个强大且不同的合作伙伴和认证ISV应用 程序组成。基于这种PlexQ技术,Syba

15、se IQ 15.4将大数据转变成可指挥每个人都行动的情 报信息,从而在整个企业的用户和业务流程范围内轻松具备大数据的分析能 力。2.3.2 主要特性Sybase IQ (15.4 )的关键特性:1. 更强的数据管理大量增强的功能改善了 Sybase IQ的数据管理、部署和可维护性。更快速的批量加载:批量加载数据通过ODBC和JDBC接口插入到Sybase 中,从而实现具有更高可扩展性的应用程序,同时可极大提高加载性能。更出色的文本压缩:更出色地对VARCHAR、VARBINARY、CHAR和 BINARY压缩可实现以更高效率、更低成本部署高性能文本分析应用程序,同 时极大提高压缩速率。2.

16、丰富的应用程序Sybase IQ 15.4增加了一系列API和工具,用于创建在数据库内运行的高级 分析算法,并且能通过PlexQ网格能充分利用大规模并行处理的能力。支持自带Map Reduce的表参数化用户自定义函数(UDF)这是Sybase IQ的本地应用程序编程接口,可使应用程序编程人员在Sybase IQ数据库服务器 内构建和部署C+库。使用这些API可实现专有算法或算法包,安全地位于 Sybase IQ内,通过在保存于Sybase IQ数据库服务器中的数据附近执行,以快 10倍的速度返回结果。此框架可实现在Sybase IQ中开发和部署MapReduce程 序,以分析涉及结构化、半结构

17、化和非结构化数据格式的超大数据集。C+、 Map和Reduce算法通过标准SQL加以调用,并且由Sybase IQ强大的查询引 擎自动在PlexQ网格中进行分发和并行化。Hadoop集成与联邦将基于Hadoop的分析的结果与运行于Sybase IQ中的查询相集成。Sybase是唯一一家提供4种不同方法将标准SQL查询(客户 端联邦、ETL处理、数据联邦和查询联邦)中的Hadoop数据和分析与分析数据 库相集成的厂商。Sybase IQ 15.4充分利用Hadoop来识别海量结构化和非结构 化数据集中的相关数据点,然后将Hadoop中的相关数据点集成到Sybase IQ 中,以便利用传统数据和来

18、自其他数据源的结果集进行分析。预测模型标记语言(PMML)支持通过Zementis提供的认证插件,自动执行使用业界标准语言定义在SAS、SPSS、日”等工具以及其他流行预测工作 平台产品中所创建的分析模型。充分利用流行的分析工具构建预测模型,自动 执行在Sybase IQ中部署的预测模型,并使用业界标准语言,以避免形成厂商捆 绑。“R”集成:用户可使用RJDBC接口,以及流行的开源统计工具“安查询 Sybase IQ数据库。此外,用户还可以将来自Sybase IQ的叩”库作为SQL查询 中的函数调用加以执行,并返回结果集。3. 数据库内分析库更新的数据库内统计和数据挖掘库(来自Fuzzy Lo

19、gix的DBLytix):在 Sybase IQ内运行的高级分析、统计和数据挖掘算法库。Sybase IQ 15.4中的更 新可使该库充分利用一些数据挖掘算法中的MapReduce API进行大规模并行处 理,并且包含多种新函数,例如支持向量机、神经网络和Adaptive Boostingo4. 扩展的生态系统Sybase IQ还非常适合面向大数据分析的端到端全面解决方案。重要的工具 和互补的合作伙伴产品可在以下方面提供帮助:Sybase PowerDesigner 16.1参考架构生成器:可通过在实施Sybase IQ数据 仓库和数据集市时生成最佳硬件配置,快速实现价值。Sybase Con

20、trol Center(SCC):改进方面包括大量管理功能,例如过程、函 数、UDF(表、TPF和JavaEE )及文本索引。用户能够更轻松地管理SCC中频繁 使用的功能,以及更轻松地部署内置、外部和文本数据库内分析。此外该版本 还包含了新的SQL执行窗口,该窗口可实现易于测试的特定SQL例程。已通过SAPBusinessObjects 认证:Sybase IQ 15.4已通过认证,可与SAP Business Objects Business Intelligence Platform 4.0 和 SAP BusinessObjects Data Services 4.0配合使用,以提供丰富

21、的端到端业务分析框架。2.3.3 主要局限 Sybase IQ MPP 是 Share-Disk 架构增加硬件,无法线性的提升数据库性能。列存储的一些劣势,装载速度,复杂查询等性能不理想。插入操作上表级锁,影响数据导入时影响表上的并发操作。(*)2.4 Teradata Aster DataTeradata天睿公司的Aster Data分析平台是市场领先的大数据分析解决方 案。Aster Data分析平台嵌入了 MapReduce,对新数据源和多结构数据类型进 行更深入的分析处理,提供具有突破性的性能和可扩展性的分析能力。AsterData解决方案利用Aster Data专利SQL-MapRe

22、duce来并行处理数据和应用程序,可在大范围内提供丰富的分析洞察力。2.4.1 基础架构TD Aster Data平台架构如下:Teradata Analytic Pfatform Solutions&lg Data InsightStrategic & Operational IntelligentSQL- MapReduce AnalvticsS-QL AnalyticsStruetureMulti-Str net ureWtib I T3 I SM I Machine logs II m斓悟 I dataTens data Ater MspRedu-ce Platform:d-eiive

23、rin SQL-MapReduc& analytics for the enterpris-e其中Aster Database架构如下:2.4.2 主要特性TD Aster Data有如下技术特点: Shared-nothing 架构海量数据库采用最易于扩展的Shared-nothing架构,每个节点都有自己的 操作系统、数据库、硬件资源,节点之间通过网络来通信。 S Q L MapReduceSQL-MapReduce是Aster Data公司的专利,在同类技术中(Greenplum)属 于领先地位。SQL-MapReduce框架可以使数据科学家和商业分析师对复杂的信 息进行快速调查分析,允

24、许一组关联计算机(计算机群集)使用软件语言(如 Java、C#、Python、C+和R)并行进行程序表达,然后通过标准SQL激活(调用)使用。基于MPP的并行分析平台第一个大规模并行分析平台,借助S Q L -MapReduce支持嵌入式分析应用 程序,使企业能显著加快TB乃至PB级数据的处理,为提供新的交互性大数据 应用带来了无数机会可视化集成开发环境第一个可视化集成开发环境(Aster Data Developer Express),拥有立即可用 的 SQL-MapReduce 模块(Aster Data Analytic Foundation 的一部分),使大数据 分析更快、更简单。 动

25、态负载管理(Dynamic Mixed Workload Management)支持最细粒度的负载均衡管理机制。多种容错、自动恢复机制Aster Data nCluster的设计彻底地避免了由于硬件和软件故障、用户或管理 员的错误以及本地或站点的破坏引起的意外停机。此外,现场管理的独特功能 尽量减少或完全避免了计划停机。倘若出现了硬件和软件故障,ROC (面向修 复计算)技术便在在线数据重新分配中提供了大规模容错性的实时修复。同 时,它允许在查询、在线备份和修复、在线复原和在线向外扩展过程中进行下 载或导出,这样就不再需要考虑停工计划预算了。支持行、列压缩存储技术2.4.3 主要局限在国内目前

26、没有发现有实施案例,没有较完整的解决方案,应用市场较 小;产品还不够成熟,如表管理可能导致性能问题;混合负载控制能力较差。3对比分析对比项fGreenplumVerticaSybase IQTD Aster Data无共享MPP架构share- everything支持开放硬件平台负载管理按列存储按行存储不支持不支持In-DB MapReduce提供hadoop 的接口提供Mapreduce API接口系统在线扩容不确定线性扩展不能动态 减少节点可动态 增减节点表分区索引资源分配用户只能设 定优先级, 系统自动分 配资源可控制 CPU/内存 等系统资 源分配不确定4性价比与最终选择综合以上分析,并考虑性价比因素,我们在MPP数据库中倾向于Greenplum。最多,而家性价比高。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号