Synball 数贝软件领先数据共享交换平台、数据集成和数据.docx

上传人:李司机 文档编号:7272176 上传时间:2024-08-05 格式:DOCX 页数:16 大小:161.24KB
返回 下载 相关 举报
Synball 数贝软件领先数据共享交换平台、数据集成和数据.docx_第1页
第1页 / 共16页
Synball 数贝软件领先数据共享交换平台、数据集成和数据.docx_第2页
第2页 / 共16页
Synball 数贝软件领先数据共享交换平台、数据集成和数据.docx_第3页
第3页 / 共16页
Synball 数贝软件领先数据共享交换平台、数据集成和数据.docx_第4页
第4页 / 共16页
Synball 数贝软件领先数据共享交换平台、数据集成和数据.docx_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《Synball 数贝软件领先数据共享交换平台、数据集成和数据.docx》由会员分享,可在线阅读,更多相关《Synball 数贝软件领先数据共享交换平台、数据集成和数据.docx(16页珍藏版)》请在三一办公上搜索。

1、。TurboD数贝软件TUrboDXTM基于Web和流处理技术新一代异构数据库复制同步、交换整合、加载产品一支持大数据MPP数仓、HadoopKafka集成技术白皮书数据资源管理与整合数据共享交换产品开笈与服务北京数贝软件科技有限公司摘要介招今天的企业/政府领导越来越意识到数据资源的币要性。面对日益增加的数据、以及复杂的异构环境,如何更快.更方便地获取原有沉积在各种异构应用系统孤岛(SiIoS)中的数据,以及通过梳理、分类、管理、整合成为有价值的数据资源,更有效地应用于实时分析报SfReaI-TimeReporting),商业智城(B1.)、大数究(BigData)智能A1.应用、以及对外共享

2、等,企业/政府需要方便易用的、可自主管理和可自我服务的(SeIf-SerVice)、可统一管理的、可扩展和可靠的、可快速部詈于本地或云中的企业级数据釐制同步和交袂整合产品解决方案.降低数据资源开发和使用的成本,避免陈旧传统技术产品解决方案所带来的困扰和问题。对于陈旧的基于ET1.的解决方案,我们求听到诸如一黑箱技术、易用性差、效率低、实时性差、本身又造成孤品、缺乏集中统一管理等许多来自用户的差评。根据IDC研究报告的疑计,客户对于传统的数蠢交换,但制、ET1.解决方案在性能方面的满意度极低.满意的用户只占17%左右。基于20多年前陈旧技术的ET1.解决方案面临着许多也于解决的挑战,主要有以下几

3、个方面:(1)日掾增加的异构数据源环境,包括各种关系组数据库.结构化及非结构化数据、以及NoSqkNewSqI数亮库和“数据湖及大数据平台(HadoOp、Kafka)的应用环境。(2)在企业/政府私有云和混合云的计算环境下,传统产品的C/S架构难于满足构建云与边的数据交换,以及在云中心的部署弁支持远程多租户共享使用方式的要求。在一个现有的企业环境中,往往不同项目要购买多套ET1.产品,各自成为孤岛.难于实现元数樨集中的统一管理、共享和任务的监控和运维,造成元数据目录管理与数据共享交换到裂的“二张皮”。(3)需要编写(二次开发)脚本语W或所谓的“模板蛆件.产品的使用对象主要是面向技术开发者的,易

4、用性差、时间冏期长、成本高而.难于满足业务部门对数据的快速需求;而另一方面,越来越多的企业数究分析人员希望产品提供简单易用的功能.并实现自我服务模式和数据端到端”的可视化管理。(4)传统的ET1.解决方案产品,往往采用批处理(batch)的数据采集/抽取方式,需要开发大的任务数,造成ET1.任务服务器不堪变负,实时性差,交换效率低下。北京数贝软件科技有限公司自主研发的TUrboDXTM产品,采用最新的基于Web、流处理和微服务的架构技术。整体架构由三个域组成:数据源、TUrboDXSerVer、及交换目标。用户通过简单易用的Web设计界面和控制台与TUrboDXSerVer后台交互。核心功彘包

5、括:数据源连接、元数据目录、数据样例查看、复制同步、交换整合、文件传输交换、结构化文件加载、Kafka对接、任务管理、任务调度等功能模块。技术特点包括:异构数据摩全(FM1.oad)复制同步、非侵入式(Non-intrusive)增量CDC同步.数据盅拟化(DataVirtUaI1.ZaUon)及大数据整合(B1.gDataIntegration).多城程并行流式处理、优化的可犷展性和灵活性、以及方便易用的基于WebB/S的任务配置利实时监控管理界面。摘要介绍1一、TUrbODX1.M架构41.1 异构数据阵全员(FuII1.oad)增Jit(O)C)复制同步41.2数据过池(F1.Iter)

6、和数据转换(TranSformation)61.3 大数据集成(BigDataIntegration)71.4 数据源连接及元数据采集81.5 元数据目录及数据查看81.6 交换整合数据8二、TUrbODXCDC技术92.1 传统的增量数据获取技术92.2 日志模式(CDC)技术9三、产品特色103.1 非侵入式(CDC)增数据获取103.2 完全基于B/S用户界面103.3 基于Web、内存流处理的先进技术架构、交换性能吗113.4 支持多种数据交换应用场景,提供图形化的统一监控和11志管理113.5 支持人数据集成(BigDataIntegration)123.6 支挣远程安全通道服务.W

7、AN传输加速123.7 数据虚拟化和元数据技术123.8 分布式扩屣构建跨部门平台12关于数贝软件14一、TUrbODxTM架构整体架构由三个域蛆成:数据源、TurboDXServer,及交获目标。用户通过简单易用的Web设计界面和控制台与TUrboDXSerVer后台交互。这个产品架构通循公司致力于通过提供先迸的、方便易用的、高性能的、可扩展的产品解决方案,为企业/政府部门更好地挖掘利用数IK资源服务的理念。TUrtDu架构图1.1异构数据降全员(FuII1.oad)增量(CDC)复制同步用户可以单独设立一个全量交换任务或增量交换任务,也可以同时设立一个全量+增量任务.全交换采用多畿程多表并

8、行处理,优化交换传输和加载效率.增支持通过扫描数据库日志(在线或归档日志)的方式捕获变化数亮CDC1这种方式对于数据源应用系统的影响降至几乎为零(V3%)。增量事务数霜被打包成事件流弁加我于目标数据库。对于在线运行中的应用系统,在全量交换过程中可能持续有新的数据进入,为了保证源和目标的数据一致性,则应送择全量+带*CDC并行的任务方式。该方式是任务启动时,增(CDC)同时启动开始捕获数樨,但此时并不加戴于目标,而是等全交换完成后再将增量数据加载,从而哨保了源和目标数据的一致性。全(Fu1.1.1.oad)采用多姣程多表并行处理,大大提高全量交换和加载效率;可单独设St读表并发数及写表并发数,用

9、户可根据机器硬件的性掂.选择最大并行数,迸一步优化效率。全交换支持断点接力续传的特性,如果全量交换过程中断则下次运行任务时会从中断的库表继续开始,节省委复交换的时间。全量任务的目标源支持关系型数据库、MPP数仓、MongoDB.Hive、HBase.Kudu.Kafka通道等。对于特定的目标数据库/仓声如:MySQ1_、POStgreSQ1.、GBaSe8a、华为GaUSS/DWS、Greenp1.um.Vertica等.除了缺省的batch加载模式,产品还提供针对不同数据用个性化的文件流加载模式,大大提升全量的加载效率。I(CDC)采用非侵入性、扫描数据焯在线/归档日志的方式获取增量数据。目

10、前版本TUrboDX4.0支持Orade(RAC)、SqIServer,MySQ1.MariaDB,PostgreSQ1.,InfOrmiX等的日志扫描CDC功能。这种方式不同于触发器(Trigger)模式,无需在源声中建立触发器成全局扫描比对堵,从而将对源应用系统数据库的影响降至最小(,3%)。对于某些厂商的老版本数据库或不支持日志CDC功能的源数据库,可以使用交换整合的任务类里交换数克。系统另支持采用触发置、标识位、时间数、全比对等精统方式荻取增数据,以及对视图的支持。塔(CDC)一个重要的特性是按事务(TranSaCtiOna1.)完整性边界及时间次序CrimeSeneS)交换数据,从而

11、保证源和目标数据的一致性,这对一些业务场景十分更要。为了提升CDC增量加载到目标库的性能产品提供支持按单事务、合并事务、分拆事务多战程并发写人等多种模式供不同场景来选择,提升写辘的写入性能。CDC流处理策构限1.2 数据过i(Fi1.ter)和数据转换(TranSformat沁n)无论是全量或增量的数据黛制同步/交换整合过程,均有两个重要的数据处理功能,即过宓和转换功能。 过速(Fi1.ter)如果针对源数据库中的库表字段的值设定过宓条件,则不满足此条件的行记录将会被系统过谑掉,而不会技加载到目标底中。TUrboDX采用了先进的流式过iS(StreamFiIter)技术,大大提升过渡的处理效率

12、。 转换(Transformation)在有的应用情况下,交换复制的目标数据不完全是与源数兆一康一样的娉贝。TurboDX提供图形化数据转换功能,允许用户自定义源与目标之间的数据转换关系,并自动进行转换处理,如包括:更新命名目标SChema、目标表及字段、增删字段、改变数嘉类型和长度等:在源和目标为异构数据声时.如果用户没有自行定义转换关系,趺省情况下,系统提供智能匹配技术,自动进行异构数据摩类型的转换处理。系维提供了几十种常用的函数.包括对敏窸数据(PH)常用的脱敏函数,用户可二次开发自定义的扩展函数。防Ift功能1.3 大数据集成(BigDataIntegration)部詈Kafka,日益

13、成为企业大数据架构应用的标配。使用TUrboDX,可用快速地实现从各种业务系统中采集实时数据,批处理或实时流加找到Hadoop,Hive、HBaSe、Kudu或实时注入到Kafka应用主题中,提供给子其它甚于Hadoop,Storm.Spark、或NoSq1.NewSq1.MPP数据库/仓库等应用来消费。TUrboDX不但为各种大数据应用提供高效实时的数据来集息姣(DataBUS).并提供笠一的元数据目录、回业EQ三圉、元敏18管理任第沟度监控通知财务数意UTUrboDX企业数据总线)1.UEB/晶任务调度和监控管理。十ZTpSborf?/的夕然一,.今S1.OnnmongoDB维TIRM民1

14、.4数据源连接及元数据采集TurboDX采用灵活的架构,允许用户管理数据源连接驱动包,并定义数况源适配器连接功彘。基于可用的数据源熟础上,系统提供元数据采集及梳理功罪,形成元数据目录。TurboDX采用了先进的数据虚拟化(DataVirtUa1.iZatiOn)技术,屏蔽各异构数据源数据结构的差异性,并提供虢一的数据展现形式.1.5 元数据目录及智能分析提供数况源的元数据采集、标签化梳理、元数据智能分析,包括字段级的语义识别、数据关系分析(知识图译)、主数据机理等功能.在元数据目录的基础上.用户可以查询、SS样例数据、迸行数据分析、标注中文谱义等元数据操作。系统通过建立虚拟字段关联数据、以及为

15、关联的多表数据建立掇合视图,及提供古看整合数据的功饶.为数据整合交涣提供必要的样例分析服务。通过元数据目录的功能,让用户可以实现“所见即可交换、结果即可验证”的端到端”可视化管理。1.6 交换整合数据塔(CDC)复制同步任务以保持事务(TranSaCtionaI)边界,将一个事务中涉及的多表致据,按照与源端对应的数第库操作写入目标端,从而保证源和目标数据的一致性。整合数据的交换不同于数据复制。整合数据往往是以业务关联的数据为边界.保证相关联数据的完整性获取和交换。TurboDX采用先进的元数据(MetaData)技术,对需要整合的多表数据先进行迎旅关联,并建立整合视图,再通过交换任务的配置,实

16、现整合数据的交换并“落地”目标库中。整合数据/视图的增获取支持采用CDC,触发器Crrigger)、标识位、时间I1.全比对等方式,由定义的触发事件驱动,并将整合数据打包交换到目标库中。整合数据交摸支持-8-1对、多对T整合及T对多”分发的任务场景。二、TUrboDXCDC技术2.1 传统的增5数据获取技术传统的非日志模式增量获取技术(如触发器、时间敏、标识表、全量对比)均对源库有较大的侵入性影响,对表或影子表的轮值查询均会造成对源声的压力,且实时性差,不能保证按事务的完整性和时间次序复制到目标库.故无法在产格的复制同步场景中使用,一般只能作为ET1.(按表整合)的某些批处理(batchPro

17、CeSSing)场景中使用。TurboDX的交换整合任务中提供了(除了日志模式外)这些传统的非日志模式增的获取方式,以便在日志CDC模式无法使用的场景下作为补充的手段。2.2 日志模式(CDC)技术主流的商业数樨库如Orade、SqIServer.MySQ1.、PostgreSQ1.Informix.MongoDB等均提供了相应的数据库日志系统接口函数,.通过这蛀日志接口.可以获取数据底的DM1.、DD1.操作,解析出SQ1.语句并加蛟到目标库,这种方式称为遗辑复制(SQ1.-app1.y,不同于回放日志文件的物理黛制模式).即只把对源声的增量SQ1.操作.实时传输并在目标卷回放。一般来说,由

18、于数据库日志接口往往是鉴听方式,对源库的压力影响很小(5%),需要传输交换的增数据也较少。针对OraCIe.TurboDX采用了在姣/归档日志扫描的CDC流处理技术,获取数据库产生的DM1.、DD1.操作增数据流,所有的数据处理均在TUrbODX股务器中进行,无需在源库中部署任何Agent处理程序和建表,大大降低了对源库计算资源的消耗和影粮3%XTUrbODXV4.2目前版本支持OraC1.eIOg、11g、12c,18c.19c的日志模式CDC,且支持Orac1.eRACo除了OraC1.e,目前TurboDX版本还支持Sq1.server.MySQ1.,Informix.PostgreSQ

19、1.MariaDB.MongoDB,达梦DM等库的日志CDC增模式。CDC写墙组件:写璃性能往往是整个交换流程的主要瓶颈。对于不同厂商的数究库/数仓来说,读和写性能往往差异较大,有针对批加载、事务多城程并发写、分区技术等个性化差异,所以写端组件设计往往需要竹对不同的数据库做个性化的优化设计。数贝TUrboDX支持全,CDC增及在统复制的全+CDCi模式金交换支持jdbcbatch和文件流加载技术(如个性化针对Greenp1.um,华为Gauss200、Gbase8a、PostgreSQ1.,MySQ1.等,采用了不落地文件的流加载模式),且CDC增支持按单事务串行、合并事务、及多姣程协同并发写

20、人等多种模式供不同场景来选择,大大提升写墙的写入性能。三、产品特色3.1 m收入式(CDC)增量数据获取数据库日志扫描的非侵入式(CDC)数据增获取技术,无需在应用系统数据库端部署任何“代理(Agent)程序,对应用系统的运行影峋降到几乎为零(3%),这个特性对许多业务核心应用系统是至关重要的。3.2 完全基于B/S用户界面直观易用的B/S用户界面是TurboDX区别于其它同类产品的重要特色TurboDX屏蔽了数况交换复杂的操作过程,无需高级DBA或技术人员提供咨询或结写不透明的定制脚本代码.通过点击几步界面操作,就可实现数据交换复制/整合的应用场景。交换复制任务3.3 基于Web、内存流处理

21、的先进技术架构、交换性能高国内首创基于Web、内存流处理和费服务的技术架构,灵活性可犷展性强,交换性能高。TUrbODX可以部署于本地或云中,是实现数据中台必不可少的工具化平台。3.4 支持多种数据交换应用场景,提供图形化的统一监控和日志管理TurboDX可用于数据复制、数据同步、读写分离、数据迁移、数据归档及卸载、E1.T/ET1.数据汇聚整合、数据分发、数据发布/订阅服务等应用场景,弁满足各种不同应用场景的统一使用和监控管理需求。MH-J-/任务IK控3.5 支持大数据集成(BigDataIntegration)快速地实现从各种业务系统中采集实时数据,批处理或实时流加载到Hadoop.Hi

22、ve、HBaSe、KUd1.I或实时注入到Kafka应用主就中,提供给予其它基于HadoOp、StOrn1、SPark、或NOSqI、NewSq1.MPP数据库/仓库等应用来消费。3.6 支持远程安全通道服务、WAN传输加速利用TurboDXP1.USSerViCe的安全的远程通道服务,TurboDX节点之间可实现跨网络节点之间的安全数据交换,并构成普(域)、跨部门的数据共享交换平台,并可以与第三方平台或数据通道如MQZKafka服务对接。TUrboDX采用数据压缩、数据加密、WAN多统程传输加速技术.实现管网段的安全高速数据交换。3.7 数据虚拟化和元数据技术采用先进的数据虚拟化(DataV

23、irtUa1.iZation)和元数据(MetaData)技术,实现对数据的梳理、元数据目录、数据查看分析、数据整合、数据交换的蜕一管理和通用“一条皮”。3.8 分布式扩展构建跨部门平台TUrbODX可单独部署于部门端或云中提供部门端的交换节点+目录节点沙箱“Sandbox所需的智慧应用功能,或与数贝公司提供的普节点网络分布式共享交换服务平台产品TurboDXP1.usService结合使用,构建新一代跨部门数据共享交换服务平台。分布式乎展关于数贝软件北京数贝软件科技有限公司是一家由海归留学生创立的内资企业,成立于2003年.公司位于北京中关村国家高新技术园区的“中关村高端人才创业基地,是国家认证的高新技术企业“和北京市认证的双软企业数贝软件是专注于数据糙合集成云计算服务、数据资源管理的产品研发为主的创新型公司,通过产品盟务与合作伙伴的市场合作扩展公司的产品业务。公司地址:北京市海淀区学院路30号科大天工大厦A座5层。电话:010-82608510/82609880公司官网:WWW

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号