数据湖与数据仓库的对比及数据湖主流开源框架.docx

上传人:小飞机 文档编号:5306518 上传时间:2023-06-24 格式:DOCX 页数:6 大小:116.56KB
返回 下载 相关 举报
数据湖与数据仓库的对比及数据湖主流开源框架.docx_第1页
第1页 / 共6页
数据湖与数据仓库的对比及数据湖主流开源框架.docx_第2页
第2页 / 共6页
数据湖与数据仓库的对比及数据湖主流开源框架.docx_第3页
第3页 / 共6页
数据湖与数据仓库的对比及数据湖主流开源框架.docx_第4页
第4页 / 共6页
数据湖与数据仓库的对比及数据湖主流开源框架.docx_第5页
第5页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《数据湖与数据仓库的对比及数据湖主流开源框架.docx》由会员分享,可在线阅读,更多相关《数据湖与数据仓库的对比及数据湖主流开源框架.docx(6页珍藏版)》请在三一办公上搜索。

1、数据湖与数据仓库的对比及数据湖主流开源框一、数据湖与数据仓库的对比数据仓库可提供可报告的结构化数据模型。这是数据湖与数 据仓库的最大区别。数据湖存储的是非结构化的原始数据,并未 定义具体用途。数据在存入数据仓库前,需要进行处理,决定哪些数据将会 或不会存入数据仓库,这被称为“写时模式”。在存入数据仓库前,数据的重新定义过程既耗时又艰难,有 时需要花费数月甚至数年时间,导致用户无法及时收集数据。利 用数据湖,用户就可以即时开始收集数据,并确定其将来的用途。鉴于其结构特点,商业分析员和提前知道自己需要用哪些数 据完成定期报告的商业用户通常会使用数据仓库。而数据湖则多 用于数据科学家和分析师,因为他

2、们需要用数据进行研究,并且 在使用前,数据需要经过更加高级的过滤和分析。数据湖和数据仓库使用的存储硬件通常也不相同。数据仓库 的存储硬件较为昂贵,而数据湖的存储硬件会便宜些(虽然体积 较大),因为它们通常使用的是商用硬件。数据湖与数据仓库的对比如表1所示。表1数据湖与数据仓库特性对比特性数据仓库数据湖数据来自事务系统、运营数据库和业务线应用程序的关系数据来自IoT设备、网站、移动应用程序、社交媒体和企业应用程序的非关系和关系数据模式设计在数据仓库实施之前(schema-on-write)写入在分析时(schema-on-read)性价比更快查询结果会带来较高存储 成本更快查询结果只需较低存储成

3、本数据质量可作为重要事实依据的高度监管数据任何可以或无法进行监管的数据(例如原始数据)用户业务分析师数据科学家、数据开发人员和业务分析师分析批处理报告、BI和可视化机器学习、预测分析、数据发现和分析二、数据湖主流开源框架目前市面上流行的三大开源数据湖方案分别为:Delta Lake、Apache Iceberg 和 Apache Hudi o(一) Delta LakeDelta Lake由Databricks推出,是一个开源的存储层,用 以将ACID事务引入Apache Spark和大数据工作负载中。Delta Lake拥有模式约束(Schema Enforcement)来防止低质量的数据

4、流入,并且在存储层上也具有良好的抽象性,允许同时存在多个 不同的存储层。图2 Delta Lake架构图Databricks在设计Delta Lake时,希望做到流式作业和批处理作业在数据层面的进一步的统一,如图3。Evenls图3 Delta Lake作业流业务数据经过Kafka导入到统一的数据湖中(无论时流式数 据还是批处理数据),上层业务可以借助各种分析引擎做进一步 的商业报表分析、流式计算以及AI分析等等。(二)Apache IcebergApache Iceberg是由Netflix公司开发及开源的,是 Netflix公司数据仓库的基础。Netflix的数据湖原先是借助 Hive来构

5、建,但发现Hive在设计上的诸多缺陷之后,开始转为 自研的Iceberg,并最终演化成Apache下一个高度抽象通用的 开源数据湖方案。图4 Iceberg架构图(三) Apache HudiApache Hudi (Hadoop Upserts anD Incrementals ),管理 大型分析数据集在HDFS上的存储。Hudi的主要目的是高效减少 摄取过程中的数据延迟。由Uber开发并开源,HDFS 上的分析数 据集通过两种类型的表提供服务:读优化表(Read Optimized Table)和近实时表(Near-Real-Time Table)。读优化表的主要 目的是通过列式存储提供查

6、询性能,而近实时表则提供实时(基 于行的存储和列式存储的组合)查询。Hudi是一个开源Spark库,用于在Hadoop上执行诸如更新, 插入和删除之类的操作。它还允许用户仅摄取更改的数据,从而 提高查询效率。它可以像任何作业一样进一步水平扩展,并将数 据集直接存储在HDFS上。HDFSHUDINotebooksEcosystemI Ups It? wn Change tugsAd hoc SQLIriiEFcrml:PrestoInteractive SQLDashboardslEmry X Ein*Hive Metastone册YMSpark PipelineslnpulFD5rnalHXS?Dai由虹nSMarmaray (Ingestion)Wr wCile nl1 nwriClwnlHiveServer2HoadlsInpiRF倒硕ETLs图5 Hudi生态系统

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号