数据集成产品的技术演进与实际应用.docx

上传人:李司机 文档编号:6830786 上传时间:2024-03-01 格式:DOCX 页数:38 大小:1,015.15KB
返回 下载 相关 举报
数据集成产品的技术演进与实际应用.docx_第1页
第1页 / 共38页
数据集成产品的技术演进与实际应用.docx_第2页
第2页 / 共38页
数据集成产品的技术演进与实际应用.docx_第3页
第3页 / 共38页
数据集成产品的技术演进与实际应用.docx_第4页
第4页 / 共38页
数据集成产品的技术演进与实际应用.docx_第5页
第5页 / 共38页
点击查看更多>>
资源描述

《数据集成产品的技术演进与实际应用.docx》由会员分享,可在线阅读,更多相关《数据集成产品的技术演进与实际应用.docx(38页珍藏版)》请在三一办公上搜索。

1、导读在数字化转型的大潮中,企业面临的数据环境日益复杂多变。滴普科技的FastDataDCT产品应运而生,专注于高效的数据集成和管理,以应对多样化的数据挑战。这款产品结合了流批一体和湖仓一体架构,提供了从数据集成、分析到价值实现的全链路服务,极大地提升了数据处理的时效性和灵活性。FastDataDCT凭借在异构数据源实时融合和数据仓库迁移方面的强大优势,有效提高了数据利用率和管理效率,减少了数据浪费。本次分享将深入探讨FastDataDCT的架构演进和实际应用案例,展现其在推动各行业数字化转型升级中的重要作用。下面的介绍分为六个部分:1 .产品概述2 .功能介绍3 .技术架构演进4 .应用场景5

2、 .成功案例6 .Q&A分享嘉宾|刘波滴普科技FaStData产品线DataFaCtS产品负责人编辑整理|胡回内容校对|李瑶出品社区|DataFun1. Data Fabric数据架构Data FabriC数据架构01产品概述C滴韩会DataFun.自2019年起,Gartner连续师将数据编织(DataFabric)列为年度数据和分析技术领域的十大趋势之一。Gartner认为DataFabriC是数据管理的未来”ODataFabrie是一种数据架构思想,包含DataOPS数据工程,其中通过Al、知识图谱等智能技术,实现主动元数据治理。Technology Pillars of the Dat

3、a Fabric Designtt laity: Il Mn 数据仓库(OLAP)、数据湖(ICeberg、Hudi)等数据源,可用于公有云之间、公有云与私有云之间的数据入湖入仓的结构迁移,存量数据同步和实时数据捕获同步。为企业实现数据流通,提供简单、安全和稳健的数据传输保障。DCT专注于数据的入湖入仓、出湖出仓场景,同时支持包括PSC、Flink.Spark在内的多引擎资源调度配置,支持批流一体以及故障转移等复杂的数据传输机制。在复杂的网络环境和业务背景下,DCT提供了稳固的数据同步解决方案。目前,DCT已经发展到第四代。其第一代主要关注于参数配置;第二代引入了可视化界面,以简化任务配置过程

4、;第三代实现了对读取与写入功能的组件化;而最新一代则新增了流批一体的任务类型,以进一步优化数据处理效率和弹性。3 .产品定位:PB级数据下高效、稳定的数据传输高速公路产品定位:PB级数据量下高效、稳定的数据传输高速公路粉舞品DataFu.DCT产品是集数据迁移、数据集成数据实时同步于一体的数据采集传输服务,解决远距离、毫秒级异步数据传输难题。为企业实现数据流通提供组件化、高可靠的数据采集服务。在大数据领域,特别是在PB级别的海量数据处理中,核心任务是确保数据传输的高效率和稳定性。DCT的产品定位就是在PB级数据量下高效、稳定的数据传输高速公路。从源端到目标端,DCT构建了一条能够灵活适应不同数

5、据源的可组合数据链路。在这一过程中,涉及13种主流的数据源类型,包括关系型数据库、大规模并行处理系统(MPP)及数据湖和数据仓库等。系统的核心技术能力集中在任务配置、组件管理以及运维维护等关键环节。这些能力共同支持了离线数据采集、实时数据采集以及批处理与流处理一体化等多样化的数据任务类型,确保了数据处理流程的灵活性和系统响应的及时性,满足了复杂数据操作的需求。4 .产品价值产品价值主要体现在三大方面异构数据源的实时融合专注于实现不同数据源如OraCle、MySQL、Kafka和ICeberg等的实时数据融合。包括支持数据的增量捕获和异构数据的语义映射,以便实现数据的即时入湖。-整库入湖入仓,出

6、湖出仓支持MySQL、OraCIe等数据源入湖入仓,出湖出仓。快速构建湖仓内数据,打通数据孤岛,实现数据的统一管理和高效利用,为数据开发工程师和数据分析人员可以快速建立数据模型、构建应用提供数据来源。降本增效降本:多种架构简化场景,简化软件架构设计,降低异构数据融合成本。通过拖拉拽实现同步链路的创建,低代码,降低学习和维护成本。增效:无代码任务构建,提升数据集成敏捷性。支持组件自定义,提升客户业务创新效率。分布式引擎、组件级高可用保障,实时链路稳定高容错。5.产品优势产品做C薄普科技DataFun.高性帏多源舞构采集支持关系里数据库、NcSQl. OL货、数据湖等多种同构. 异构数据源之间的结

7、构迁移、 S线同步和渊同步.使用同T开发宛式来实现大 於调的流计算和I比计算,迸而保证处理过程与结果的一-致性0降蚊枇i铢集任务配置F次配M,程序自动进行批和海KJftK探触O)C机制,H忠媛赵所,时效 性有保建;支持断点康传、故 障转移,保UE数据传输的可株 件.组件插拔式低成本、高效率S云康生架构QL.=zJ组件插拔式管理,可自定义组 件扩展,支持施拉模任务配置, 低代码,易学易维护.单进程任务,最低IG内存, 成本降到最低,支持并行度设9,有效地提硒镭滋率,无育调整现在架构,强版容: 基于日志,对源业务无侵入无 影向,保if炭业务库也定运行, 高性能多源异构数据采集支持从关系型数据库、N

8、oSQL、OLAP、数据湖等多样的数据源进行结构化迁移、离线同步以及实时同步。 批流一体化数据采集采用统一的开发范式,同时实施大数据的流式和批量计算,确保数据处理的一致性,并简化了批流采集任务的配置流程。 高可靠性与时效性通过变更数据捕获(CDC)机制,实现日志级别的数据监听,确保数据的时效性。同时,支持断点续传和故障转移,保障数据传输的高可靠性。 组件化插拔式管理提供了组件插拔式管理,用户可以自定义组件进行扩展,并支持拖拉拽的任务配置方式,降低了代码编写的需求,使系统易于学习和维护。低成本高效率运行系统设计为单进程任务,最低仅需IG内存即可运行,降低了成本。同时,支持并行度设置,有效提高了数

9、据传输效率。云原生架构设计系统采用云原生架构,无需调整现有架构,具有强大的兼容性。基于日志的设计对源业务无侵入,保障原有业务库的稳定运行。02功能介绍1.产品功能架构图在产品功能架构的设计上,专注于数据湖和数据仓的高效数据处理流程,包括数据的导入与导出操作。Delink.EMRxMRS等平台能够得到良好的支持,系统对于数据湖或湖仓一体化平台有很好的兼容性。产品功能架构图WitWiRataFu.BI分航僮时大孱A6Tt叠务应用实啦仓DLinkEMRMRSCDHCDP.- 基础服务层面提供了数据源管理、资源组件管理等核心功能。- 数据传输层面数据传输过程中,任务类型被细分为离线、实时和流批一体三种

10、模式。数据采集模式涵盖一对一、多对一和一对多三种类型。组件配置方面,将其划分为读取组件、转换组件和写入组件,数据映射时提供字段批量处理、整库处理和大批量处理等映射规则。数据安全管理方面,实施了严格的分类分级、加解密措施,并对任务管理进行了优化,包括前置检测、导入导出、断点续传和DDL变更等功能。- 监控告警层面系统支持故障转移,如通过检查频率来实现超时任务的故障迁移。任务执行过程中,监控大屏能够实时显示任务状态、数据同步量和资源消耗情况。为确保数据质量,系统支持与源端进行数据质量校验,并结合告警规则对超时任务和状态进行监控。此外,系统支持多种消息提醒方式,如短信、钉钉电话、Webhook等,从

11、而快速为下游应用提供必要的数据支撑。2.产品核心功能修典费金第ff产品核心功能1 .资源管支持界面配置多种计躯调度&存储资源类型。支持界面配置多种类型数据源,测试连通性。3 .担件管理WE11tta-Iflft,就拓取、指氟WAffift.4 .任务配量支持按项目空间&目录进行任务会。(I)IttHHS采集:支持根据源表生成目标表建表SljL等,快速创建目标表,支持按时间周期自动调度全量/增量数据采集.实时败据采集:支持通过订阅数据源HEi。得方式,无侵入实现实时增量数据采集.批流一MHe入湖:支持通过一个任务实现批流一体数据入IcMrgS运维盥控翻实例日志I支持根据日志层级,分类专看日志信息

12、,快速定位问题;jffi告鲁,支持钉钉、解箱、短信、电话等多种告警方.式:MXX(3)更据质Ib支持界面查看抽取总数、写入总数、运j长等指标进彳板场量触“资源管理支持界面配置多种计算、调度、存储资源类型。数据源管理支持界面配置多种类型数据源,测试连通性。O组件管理将ETL能力抽象为“组件”,支持界面管理读取、转换、写入组件。任务配置支持按项目空间&目录进行任务管理。离线数据采集:支持根据源表生成目标表建表SQL等,快速创建目标表,支持按时间周期自动调度全量/增量数据采集。实时数据采集:支持通过订阅数据源Binlog等方式,无侵入实现实时增量数据采集。批流一体数据入湖:支持通过一个任务实现批流一

13、体数据入ICeberg等数据湖。运维监控实例日志:支持根据日志层级,分类查看日志信息,快速定位问题。监控告警:支持钉钉、邮箱、短信、电话等多种告警方式。数据质量:支持界面查看抽取总数、写入总数、运行时长等指标进行数据质量管理。C 盘露警 JgtaFun.支 持DCT On Locak DCT On Yarn、Spark on Yarn 、DLink不同的资源调度引擎,用于不同的场景,如Yam 资源调度,满足湖仓一体、批流一体等。自研收,调度弓摩实现本地资源调度,资基于资源调度,通过B妙嗨离资源。渡蝌氐。基于SPark引擎,任务运行在Yam 里,i敌稳定,基于DLink,任务运行在Yarn 或者

14、KSS里,适用于批流一体3.多引擎调度多引擎调度 DCTOnLocal这种调度方法基于我们自主研发的PSC调度引擎,利用本地资源进行资源调度,其资源消耗极低。 DCTOnYarn这种调度方法通过队列机制实现资源隔离,保证了调度的效率和安全性。 SparkOnYarn这种调度方法采用Spark引擎。在这种情况下,任务实际上运行在Yarn集群中,确保了高效和稳定的运行环境。 Delink这种调度方式是基于我们自研的实时湖仓Delinko这种方式的任务运行在Yarn或K8S中,通常适用于批流一体的数据湖场景。高效的特征配置能力,可以应对大量的特征需求。4.扩展性自定义组件DCT统一了数据格式标准和组

15、件开发规范,支持根据需求进行自定义组件开发,导入到管理界面后即可使用。扩展性自定义组件,科生)fqFu11.DcT统一了数据格式标准和组件开发规范,支持根据需求进行自定义组件开发,开发完成后可以在页面上的组件管理界面,导入自定义的组件即可使用。5,构建任务-组件化配置、零代码开发任务构建的过程也非常简便,采用了模块化的配置方法。用户只需通过直观的拖 拽操作,将读取组件、转换组件和写入组件按需串联起来,即可完成任务配置。这种设计大大简化了任务构建流程,提高了操作的便捷性和效率。构建件itM、零代惭发全图形化的拖接方式,设计各种读取、转换、写入过程。C滴普科技fataFun.HiW谟取已大小写专换

16、的理件未开始H he 读取4 24.2J.5VMySQL写入4. 24. 22. 3 置hiv读取组件*.iMiH. : / /10,201. 136: ICOC任务设置大小写转换的T组件数据源mysq134转换组件参数配置需要进行大写转换的字段需要进行小写转换的字段jdbcmysql写入组件*用户名root,密码连接超时时间3000自定义查询SQL6 .离线同步(全&增量)全量同步:指源表中所有数据都传输。增量同步:全量同步过程中或同步完成之后,源库产生的增量数据,支持通过自定义SQL引用变量获取。离线同步(全滴普科技OEEPEXIataFun.全:指源表中所有数据都传轴。增量:全量同步过程

17、中或同步完成之后,源库产生的增量 数据,支持通过自定义SQL引用变量获取。Sbizdate):目义查&1L0epdxepkuseectidcodeva*estValgn7 .实时同步实时同步三?OataFun.采用基于日志的增量数据秒级获取技术(CDC),为数据仓库、大数据平台提供实时、准确的数据变化,从而使得客户可以根据最新的数据进行运营管理与决策制定。MySQLiSK未开始MySQL,通过Binlog方式获取准确的数据,支持5X及以上多版本,支持只谀库权MySQLBinlogSQL 读取 4.2_4.2_4.2.8.1 呼 Postgre SQL读取木开始PostgreSQL1支持逻辑流复

18、制,通过 wal2json解析日志获取准确的数据;支持 断点续传。PostgreSQL wal2jsonOracle,支持LogMiner读取数据库日志 获取准确的数据;支持新点续传。OracleLogMinerPostgrc SQL 读取4. 2_4. 22.5逻班插槽名.:Wi5辑Hl不H除遗8槽长用不消费的,清手动BH艇轻槽Oracle读取 OraCiC 读取4 60.31生成新字典 _6_,欲据库模式单实例模式采式从指定位开始初*指定SCn 限的同步;支持新点燃传。采用基于日志的增量数据秒级获取技术(CDC),为数据仓库、大数据平台提供实时、准确的数据变化,从而使得客户可以根据最新的数

19、据进行运营管理与决策制定。-MySQL,通过BinIOg方式获取准确的数据,支持5.x及以上多版本,支持只读库权限的同步;支持断点续传。-PostgreSQL5支持逻辑流复制,通过wal2json解析日志获取准确的数据;支持断点续传。-Oracle,支持LogMiner读取数据库日志获取准确的数据;支持断点续传。8 .批流一体使用同一套开发范式来实现大数据的流计算和批计算,进而保证处理过程与结果的一致性。降低批流采集任务配置复杂度,一次配置,程序自动进行批和流的数据采集,便于任务管理;批流自动切换,可降低资源消耗。批流一体脾普)atgFu使用同一套开发范式来实现大数据的流计算和批计算,进而保证

20、处理过程与结果的一致性。降低批流采集任务配置复杂度,一次配置,程序自动进行批和流的数据采集,便于任务管理;批流自动切换,消耗资源降低。1验时*ffR三!ft三Flink CDCK IMW州*,J Mcr CHJ Ilb nvr t SOO91A MuttXf PV Ikhfrayr 效Talk k.,A 奇 1 500RU1 a ,培力1理1Hfi 1 Mragc CPtnJeb VMTMg 13 0 0MB作他财的公视IUa犬要24、2ManpcrCWI4HwiHITanlrw*r内#100。9.丰富的监控运维系统提供了全面的监控功能,包括对每个实例的输入和输出数据量进行实时监控。这不仅限于

21、单个实例,还涵盖了平台级和项目级的任务。监控内容包括数据同步趋势、资源消耗等关键指标,所有这些监控数据都通过一个可视化界面展现。这种可视化监控系统使监控过程更加直观和全面,支持实例级的输入、输出条数记录,平台级和项目级任务状态监控、数据同步趋势监控以及资源消耗监控。通过这种直观的方式呈现监控数据,监控人员能够更清晰地理解和分析监控场景,及时发现和响应任何异常情况,从而保证系统的高效和稳定运行。丰富的监控运维 一技DEEPExiataFun.支持实例级的输入,输出条数记录,平台级/项目级任务状态监控、同步数据趋势监控、资源消耗监控。可视化监控系统能够以直观的方式呈现监控画面,使得监控过程更加立体

22、、全面,帮助监控人员更加清晰地了解监控场景,从而及时发现异常情况。3USI2,mCl4.BhdV2u gCWE44L6O1I SQLServer Kafka、HiVe等数据源。DCT1.0的核心功能包括:支持离线和实时数据同步;读写组件插件化;命令行的方式,单进程运行;支持MySQL、OracleSQLServer.KafkaHive等数据源。DCT 2.峨术架构2. DCT2.0技术架构切黑鹦ItaFun.ManagerSecvef饥件管理欧据谭仔戌实例管理运康监控Worker ProcessWF 4 I PtUQ r1DCT 2.O5fctt任务创建和配置支持界面化操作,以拖拉拽的方式进彳

23、亍任务开发;支持数据源管理、读写组件和转梃小牛的上传与下载;支持多任务并行运行。WP数据本NoSQLttmDCT2.0架构在1.0的基础之上,进行了如下提升: 任务创建和配置支持界面化操作,以拖拉拽的方式进行任务开发; 支持数据源管理、读写组件和转换组件的上传与下载; 支持多任务并行运行。3. DCT3.0技术架构DCT3.0架构介绍-Manger管理端控制创建任务以及启动停止;可实时监控MasterNode是否在线。- MasterNode主节点负责WorkNode注册上线,监控,状态维护;对提交的任务进行节点分配,任务下发,状态监控。-WorkNode工作节点负责MasterNode上报所

24、在服务器节点的资源相关信息,接收来自MasterNode下发的任务;负责PSC启动,监控上报,结束、异常处理等整个完整生命周期。- PSC可编程调度容器执行数据同步任务的最小管理单元,包含读取、转换、写入组件,共同组成一个同步任务;由WorkNode负责管理整个任务的生命周期。- DCT3.0架构先进性支持分布式部署,Manager节点和WorkNode节点实现了无状态化,能够独立的横向扩展,支持高可用和弹性扩缩容;实时查看CPU、内存、1/。等资源使用情况;设定任务优先级,智能分配资源;优化PSC,使得能快速地支持自定义组件扩展。4. DCT4.0技术架构DCT4.0架构更进一步: 优化掉了

25、调度单点瓶颈的MasterNode节点,降低系统复杂度,提升了系统的可靠性; 自主研发基于Manager结合PSC作为资源调度引擎,实现任务分片调度;-WorkNode节点与PSC任务支持故障转移,使得系统具有更优的稳定性; DCT支持多种资源调度模式,能和大数据集群共享调度资源,降低硬件成本ODCT-on-Local模式:Local模式支持以工作节点作为任务运行的资源,不需要依赖外部资源;DCT-On-Yarn模式:支持在Yarn集群运行;DCT-On-Spark模式:使用Spark引擎,以Yarn作为资源调度运行任务;DCT-on-DLink模式:使用DLink湖仓引擎,以Yarn或K8S

26、作为资源调度运行任务。04应用场景接下来将通过整库入湖场景,来介绍DCT的应用。将业务库MySQL中的数据入湖,快速构建湖仓一体。仅需简单的四步,即可完成从基础配置到实例运维的全流程闭环。场景I整库入湖切酢楞JataFun.将业务库MySQL中的数据入湖,快速构建湖仓仅需简单的四步,即可完成从基g遭到实例运维的仝流程闭环。1 .配置数据源场景I整库入湖配置数据源C滴普科技RaFun4Ajttft实陋tMM3息新建MyWL数据源 作为采集源端,配置 连接信息与用户信息.数据源连通性对网络 连通性、数据库连接、 数据库权限进行验证. 通过授权指定项目空 间.Mn,MSQLnyvgXIHtWiS*C

27、WlbsTLE崛5二票*El3p.g*m配置数据源这一步骤相对简单,主要通过直观的拖拽操作来完成。用户需要填写相关的数据源连接信息,如数据库地址、端口、用户名和密码等。连接验证和预检测配置完数据源后,下一步是验证连接信息。包括检查提供的连接信息是否正确,以及验证相应的权限。系统会进行一系列预检测,确保数据源连接的有效性和安全性。2 .配置资源rwBtM*选择DLink资源作为栗境的资源四度引整,湖内CaIal(瑞信息获 取,作为目标端.运维文件上传(CUC jar上传),,线 JLU运维文件用户名dsdemo密码JAR IDJAR IlRI上件时间是否启用H120907866 http:/14

28、3.192. 48.1-2023-10-1113:00,2716!M6521292 http :/143. 192.48. 1 2023-08-2410:0527PkWA目空间ID16913Xm33- hlip,J3J92. 18. 1 2023FB-23U :25:53选择DLink资源作为采集的资源调度引擎。湖内Catalog信息获取,作为目标端。运维文件上传(CDC jar上传)。3.新建入湖任务滴普科技JataFun.场景I整库入湖-配置资源场景I整库入湖新建入湖任务滴普科技DEEPEXIataFun.研读取组件MyS乳作为采集源端,写入组件IcebergDLink作为目御“配置任务基

29、础信息,*M例如:Fink重启策略配置.Checkpoint.并行度、日志存储等,分别配置批资源、流.资源,实例运行自动I切换,可根据源表结构,自动生成目标表结构,支持预览、编辑,批包建.来源我前置检测通过后,启xyxq_cuslol.动任务. 选择读取组件,MySQL作为采集源端,写入组件Iceberg_DLink作为目标,LU,而。 配置任务基础信息,例如:Flink重启策略配置、Checkpoint,并行度、日志存储等。 分别配置批资源、流资源,实例运行自动切换。 可根据源表结构,自动生成目标表结构,支持预览、编辑、批量创建。 前置检测通过后,启动任务。4.实例运维C滴普娜DcrtaFu

30、n.实例类型全部、场景I整库入湖-实例运维实例列表支持查看实例状态、 同步敬、笄常记录 等。通过查看实例配置, 二次检黝是否符合同 步配R状态运行时长数据来源/去向读取/写入总数过池数Ift错误数运行机器 I-.lj,? l.数据来源:MySQ数据去 IceberR Dlin限k读取;Tf写入I TT0。行支持查看实例状态、同步数量、异常记录等。o通过查看实例配置,二次检验是否符合同步配置。05成功案例1.某能源企业:集成滴普实时湖仓,油田数据服务时效性大幅提升某能源企业:集成滴普实时湖仓,油田数据服务时效性大幅提升,噩鬻支ataFu解决方案某能源公司是以油气业务、工程技术服务、石油工程建设,

31、 石油装 备制造等为主营业务的综合性国际能源公司,是中国主要的油气生 产商和供应商之一.勘探开发平台是国内油气行业曾个能云平台,其依托依潮和PaaS技术实现勘探开发生产建、协同研究、管理及决策的一体化迄普,支撑勘探开发业务的敏字化、动化、*户Al求I由Iltl致仓升锻为新-代实时潮仓提升油田勘探开发散据的版务时效 性,原有数据需要T+1才能从数据 源端到达数据服务端.全量油田数据入湖,油田边缘计算 设备的时序数据需要实时上传入湖, 原有离统数仓不支持数据快速去重 能力,导致时序入湖性能达不到要 求.tt-M4UftTA 滴普DCTS! 供蜕一的多源异构数据库实时间 步+商饯同步工具,支持结构化

32、 数据、半结构化数据实时汇聚,实时潮仓架构升fib滴普Mink实时湖仓引颦集成到勘探开发云 平台,提供数据实时计算、联邦 查询等高级特性.客户背景客户背景某能源公司是以油气业务、工程技术服务、石油工程建设、石油装备制造等为主营业务的综合性国际能源公司,是中国主要的油气生产商和供应商之-O勘探开发平台是国内油气行业首个智能云平台,其依托数据湖和PaaS技术实现勘探开发生产管理、协同研究、经营管理及决策的一体化运营,支撑勘探开发业务的数字化、自动化、可视化、智能化转型发展。客户需求由离线数仓升级为新一代实时湖仓提升油田勘探开发数据的服务时效性,原有数据需要T+1才能从数据源端到达数据服务端。全量油

33、田数据入湖,油田边缘计算设备的时序数据需要实时上传入湖,原有离线数仓不支持数据快速去重能力,导致时序入湖性能达不到要求。滴普服务统一数据集成工具:滴普DCT提供统一的多源异构数据库实时同步+离线同步工具,支持结构化数据、半结构化数据实时汇聚。实时湖仓架构升级:滴普DLink实时湖仓引擎集成到勘探开发云平台,提供数据实时计算、联邦查询等高级特性。-解决方案数据源分类:项目涵盖了11大类油田数据源,这些数据源多样化,涉及油气行业的多个关键领域。数据同步和调度:所有这些数据源通过DCT进行统一调度和集成。DCT在这里起到了核心的数据同步和集成工具的作用,确保了不同数据源之间的有效对接。数据同步至开发

34、云平台:通过DCT工具,数据被同步到一个专门的开发云平台。这个平台作为数据处理和分析的核心,支持大规模数据集的处理和分析。数据量和应用场景:这个项目处理了大约5PB的数据量,这一规模体现了其处理大数据的强大能力。最终,这些数据用于支持8大油气数据应用场景,提供实时的数据服务。(1)勘探开发云平台:勘探开发云平台新架构蝌系统/模块三三数据源实时湖仓CIiCkHoUSe应 用 服 务-据务E 统数服接 数据集成:从各种业务系统中提取数据,通过DCT实现数据的统一集成。,数据入湖:采用批流一体的方式,具体是通过FlinkCDC机制将数据同步到Kafka集群,然后再利用Flink将数据实时写入数据湖。

35、同时,也支持使用联邦查询技术进行批处理数据的入湖。,实时计算与离线分析:数据入湖后,在数据湖内部进行实时计算及离线分析,实现数据的深度处理。 数据同步与调度:处理完成的数据通过调度策略,使用Trinor进行离线同步到CIickHouse(CK)O 数据服务API:最终,通过API将同步到CIickHouse的数据提供给下游应用,供进一步的业务应用和数据分析使用。成果:异构多模数据通过统一数据采集架构入湖,优化运维成本成果:异构多憾据通滋0,优侬维成本AB三aFun.典HlMfe插抖8种,Ja小断翱T 中鼻线接入,作为统一敷入湖工具,降低依据集 成过程的震狭度.集解架构进一步提升塞管性mofQ*

36、25 15.13%MfM5 入2 515.13 2-2HM10186新架构相较于原架构,实现了数据同步流程的简化和统一,并通过实时数据湖的引入,提升了数据处理的实时性和全面性,为更快速、更有效的数据分析提供了支持。 原架构特点:在原有的数据架构中,实时数据同步和离线数据同步是分开的,使用不同的工具链进行处理。 新架构优化:新架构通过DCT实现了数据采集的统一,将实时和离线数据同步集成在同一条数据链路中,优化了入湖过程。 数据湖转变:在原架构中,数据湖主要面向离线数据存储,而新架构升级为实时数据湖,提供了更高的时效性和全链路数据处理的能力。 时效性提升:新架构显著提高了数据处理的时效性,使得实时

37、数据分析成为可能,同时还支持在实时数据湖中进行全链路的数据处理。成果:数据入湖、湖仓内模型处理速度大幅提升,时效升级为T+0Oracle流或任务实时处理数据湖应用层ClickH ouse从原批量导入+定时任务跑批架构升级为实时采集L+实时计算的架构,数据时效从TtI升级为+o.离线 跑批一 l-离线 跑批ClickH ouse 原架构处理方式:原架构依赖于离线跑批处理数据,并将数据同步到数据集市(datamart)层,同样采用离线跑批的方法。 新架构的优化:新架构采用了流批一体的处理链路,从数据入湖到最终写入数据集市,整个应用层都采用了流处理和批处理的结合方式。 时效性提升:新架构将数据处理的

38、时效性从原来的Tl(次日处理)提升到了T0(实时处理),显著提高了数据处理的即时性。 资源消耗优化:新架构能够在资源消耗上实现显著节省,提高了整体的数据处理效率。 性能提升:在数据同步性能上,从原来的每秒同步IlOO条数据提升到实时入湖监测到的每秒25000条数据,性能提高了超过20倍。2.某零售企业:构建围绕“货”“店”数据智能运营体系项目背景及目标某大型时尚及运动产业集团,涵盖鞋类、运动和服饰3大业务,旗下 拥有20多个品牌,是Nike、AdidaS等国际运动品牌在华关键零售伙伴,在中国300多个城市拥有自营门店近20. OOO家.需求1:业务全箧路敷字化希望建设自上而下商品管理策略, 谢

39、亍全流程商品数字化血,及时呈现品牌运营状态移动化求2:实现敷据标准化希望基于标准岗位构建商品跟踪和 分析体系,实现数据应用标准化、IR求3:实现运誉智能化希望实现商品订铺补迭调智能化, 提升商品运营效率高精选销量测模St,浪款肖量预测,精准率9层层敷播平台开皴统一1、咨询设计2、依据稼础能力设3、敷据资产应用2 5PB数据量,500GB,,每天新 增,查询性能提升30K940硬件资源年维护成本(年) 25%DIC:效字化!例咨询:就业务概念中 :的核心角色、价值逻辑、联动关 :系、业务元素等谢亍梳理和可视 :化呈现,帮助在共建团队之间达 :成三个核阳标:1、统一思想 :在立共识2、指导数字化工作开 :展3、业务可持

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号