分布式存储产业方阵:分布式存储发展白皮书(2023).docx

上传人:李司机 文档编号:6818931 上传时间:2024-02-26 格式:DOCX 页数:45 大小:476.33KB
返回 下载 相关 举报
分布式存储产业方阵:分布式存储发展白皮书(2023).docx_第1页
第1页 / 共45页
分布式存储产业方阵:分布式存储发展白皮书(2023).docx_第2页
第2页 / 共45页
分布式存储产业方阵:分布式存储发展白皮书(2023).docx_第3页
第3页 / 共45页
分布式存储产业方阵:分布式存储发展白皮书(2023).docx_第4页
第4页 / 共45页
分布式存储产业方阵:分布式存储发展白皮书(2023).docx_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《分布式存储产业方阵:分布式存储发展白皮书(2023).docx》由会员分享,可在线阅读,更多相关《分布式存储产业方阵:分布式存储发展白皮书(2023).docx(45页珍藏版)》请在三一办公上搜索。

1、版权声明1一、数据智能,引领分布式存储创新发展I(一)大模型快速崛起,开启海量数据应用新时代1(二)算力发展需要互联互通,加速数据流动需求2二、产业解析,纵观分布式存储产业进展4(一)步入稳定增长阶段,筑稳非结构化数据底座4(一)供需应用更加多元,上下游生态合作更加紧密7(三)介质协议加速升级,全闪与融合形态快速发展IO三、场景解读,指引分布式存储新兴应用12(一)Al大模型12(二)大数据湖仓一体15(三)数字化病理18(四)生物信息分析21(五)量化交易23(六)边缘计算25(七)数据网络28四、技术透视,展望分布式存储发展趋势31(一)架构方面,向融合负载、更高密度、更快网络发展31(二

2、)功能方面,向场景化无损压缩、多活容灾发展34(三)硬件方面,向全闪存化、高效节能发展36(四)生态方面,向云存开放对接、存储直通发展38五、共建共赢,推进分布式存储生态发展42图目录图120192022年分布式存储市场规模4图22022年中国各省市新增分布式存储容量5图3分布式存储垂直行业增长表现6图4分布式存储典型应用场景7图5分布式存储产业生态图景9图6分布式存储在AI大模型场景应用13图7大数据进入湖仓一体新阶段15图8分布式存储在数字化病理场景应用19图9分布式存储在生信分析场景应用22图10分布式存储在量化交易场景应用24图11单框多节点架构示意32图12传统TCP/IP数据传输过

3、程33图13RDMA数据传输过程34图14分布式液冷存储示意图38图15GPU直通存储示意40一、数据智能,引领分布式存储创新发展(一)大模型快速崛起,开启海量数据应用新时代大模型的快速发展让大模型的训练效率引起了业界的广泛关注,大模型训练一方面对互联带宽提出了新的挑战,另一方面也对数据存储、流动的效率提出了更高的需求。从2018年谷歌发布BERT开始,业界开启了预训练大模型之路。2023年出现了第一个杀手级应用ChatGPT,由OPenA公司在2022年11月推出,到2023年1月已经达到1亿月活用户。2023年3月英伟达在GTC大会上也表示A的iPhone时刻已经到来,标志着大模型快速崛起

4、,进入应用阶段。大模型在训练过程中所需数据量庞大。模型的深度学习网络层数多、链接多、参数复杂,以及训练所用数据集种类复杂,数据量大。在深度学习算法刚刚诞生时,主流模型只有几百万参数,而BERT发布时模型参数就已经过亿,将深度学习推进到了大模型阶段。到了ChatGPT阶段,主流模型已经有几千亿参数,甚至业界已经开始规划万亿模型。几年时间里,A模型的参数提升几千倍,如此庞大的数据与模型都需要进行存储,这就成了大模型爆发给存储的第一大考验。大模型的另一个显著特点是对非结构化数据的高度依赖。目前会泛提到A大模型采用了全新的模型结构,因此对非结构化数据会有更好的吸收效果与鲁棒性,这对于A最终效果非常重要

5、,但也带来一个衍生问题:如何妥善处理存储和调用海量的非结构化数据。比如,2023年9月OPenA宣布ChatGPT开启多模态输出模式,ChatGPT在升级后加入了识图、语音识别等多模态能力,因此其训练数据也需要在文本基础上加入大量图片、语音,再比如自动驾驶车辆,每天要将大量实地测试视频存储起来作为模型训练依据。这些非结构化数据,带来了A相关数据的海量增长,也带来了存储和处理这些数据的难题。据统计,当前全球新增数据有80%都是非结构化数据,年复合增长率达到38%,应对多元化的数据激增,已经成为大模型时代必须克服的困难。大模型对存储的性能安全性也提出了更高的要求。大模型往往需要频繁读取和调用数据,

6、ChatGPT的数据访问使用量达到单月17.6亿次,平均响应速度在10秒以内,并且A模型的工作流程包括采集、准备、训练、推理四部分,每个阶段需要读写不同类型的数据。因此,大模型对存储性能也带来了要求。此外,围绕ChatGPT展开的一系列数据主权、数据保护争议,也提醒我们A大模型带来了数据安全方面新的风险。试想一下,如果不法分子攻击数据库,从而令大语言模型生成错误信息欺骗用户,其危害结果既严重且隐蔽。(二)算力发展需要互联互通,加速数据流动需求2023年10月,工信部等六部门联合印发算力基础设施高质量发展行动计划,行动计划提出到2025年,我国存储总量将超过1800EB,为我国数据存储产业提供了

7、巨大的增长空间。行动计划重点任务部署强调探索构建我国算力互联网,促进海量数据要素高效流动。在此背景下,实现算力统一调度和高速互联已经成为刚需,算力发展进入互联互通时代,数据流动作为算力互联互通的关键组成部分,是释放算力资源价值的基础,也是解决数算协同问题的关键环节。面对数据搬运成本高、数据安全合规、跨云跨域数据流动难等挑战,信通院联合用户和产业单位共同启动数据流动标准研究工作,期望通过标准建设助力构建开放、互联互通的算力生态系统,推动算力的协同和整合,为我国数字经济发展和创新提供更大的助力。算力互联网快速发展,数据流动是支撑算力互联互通的关键能力。云和存储对接、多云数据流动需求迸发,促进分布式

8、存储向支撑上层多云数据管理方向演进。二、产业解析,纵观分布式存储产业进展(一)步入稳定增长阶段,筑稳非结构化数据底座分布式存储市场呈现稳健增长,软硬一体比重持续上升。2022年,经过中国信息通信研究院与分布式存储产业方阵的深入分析,中国的分布式存储市场规模预计为205亿元,年复合增长率达到15%,随着经济回暖,市场增速未来将持续保持增长。其中,软硬一体的存储解决方案占据了市场的91.3%,厂商如华为、新华三及曙光等纷纷推出相应的新产品,旨在满足Al大型模型和大数据湖等场景下的非结构化数据需求。分布式存储纯软件分布式存储一体机分布式存储整体一纯软件占比来源:IDC、中国信息通信研究院图12019

9、2022年分布式存储市场规模中东部数字经济发达,分布式存储发展强劲。从2022年各省新增分布式存储容量规模可以看出,我国分布式存储的发展与各区域数字经济发展呈正相关。区域集中度较高,北京、广东、上海、山东、江苏、浙江六省市作为数据生产大省,容量规模新增5.6EB,占全国新增一半以上。其中,北上广新增达3.9EB,约占全国新增容量规模的38%。东部、中部地区城市分布式存储发展势头强劲。区域规模柱图图例规模(PB)区域图例 4150150-200 200-500 500缺失值来臬IDG中国信息通信研究院图22022年中国各省市新增分布式存储容量随着各行业数字化转型的持续推进,应用规模持续增长。根据

10、2021年和2022年的数据对分布式存储在各行业的市场空间进行的观察,中国分布式存储市场的前五大应用行业为政府、电信、金融、教育和制造。2022年,这五大行业在市场中的份额已占据了69%,特别是在电信、金融、教育、传媒和交通等数字化进展较快的行业,其增长态势尤为显著。来源:IDC、中国信息通信研究院图3分布式存储垂直行业增长表现新兴场景应用已渐成规模,分布式存储典型应用场景规模逐步均衡。根据中国信息通信研究院和分布式存储产业方阵的市场调研及分析,分布式存储应用场景发展迅速,已经由过去典型的五个传统场景向更多的新兴应用场景发展。虚拟化/云计算、电子票据影像、医疗影像、非线性编辑、视频监控五个传统

11、应用场景正随着分布式存储技术创新应用稳步增长。同时随着非结构化高价值数据快速增长,非结构化数据分析、数据挖掘成为生产决策流程,Al大模型、高性能计算、大数据分析、海量数据备份归档、工业互联网等新兴场景应用已经逐渐成规模,并快速扩大应用。虚拟化/云计算视频监控高性能计算大数据分析医疗影像海量数据备份归档电子票据影像Al大模型非线性编辑工业互联网其他来源:IDC、中国信息通信研究院图4分布式存储典型应用场景(一)供需应用更加多元,上下游生态合作更加紧密2022年2月,分布式存储产业方阵联合产、学、研、用各界共同发起编制国内首个分布式存储产业生态图景,2022年6月,产业生态图景(VLO)完成编制工

12、作。2023年10月产业生态图景(V2.0)刷新,生态图景共有五个维度,自下而上分别是:关键部件、产品形态、服务类型、应用场景、应用行业,旨在为分布式存储产业链企业及最终用户提供清晰的分布式存储生态图景,梳理产业发展脉络,呈现不同领域的典型企业,展现分布式存储生态格局。从分布式存储全产业链发展的角度来看,无论是位于上游的IT基础设施提供商、存储关键部件提供商,还是面向客户和行业的解决方案提供商、系统集成商,在以分布式存储为核心的生态圈中均呈现规模增长。与此同时,不同企业在提供产品或服务时,基于各家战略定位、商业决策以及运营模式的差异化,最终面向市场用户的产品形态及服务类型呈现多元化态势。此外,

13、分布式存储的细分赛道发展及不同行业的实际落地情况是分布式存储产业生态成熟的标志,不同领域生态伙伴的密切合作将成为连接产业供需双方的重要纽带。B5S集W+三if M:?:“出*g Um工stti-TMypg11s :*/WaINOCA=Wl一三1KJ二金孽:U:UOIaPIUJXS#:*产:-ttMNH-U5,UdBnS::三Mn心li*llFHO,卷产:SS笑宾察言副n.J11三RTPrzlJD生务U史O二、SiIlaffia根谶Xxso11-H自X?!要,MmJ3wqvr.%Sw_MK-s,iRp:*卜.*SBS如於施更柒工SX-川*Ss欣:工UF6nsB*11BMUKWCQ-JJBIBUo

14、装备学X*4maS*舌&uxudQHDa.之*软:SH.S:3rXhfaTqg!三2sRu-ffl&i%hln5uUmn.1Jo*uo6ns:99讴DeItaLake等开放格式,具备数据仓的事务一致性,同时面对各种应用场景,具备对接大数据计算引擎,如:APaChe的SPark、FlinkPrestoHiVe等,实现对各种数据的访问,实现开放的数据访问。 存储与计算分离:存储和计算使用单独的集群,按需分别扩展,保证湖仓一体的整体系统能够支持更多的用户并发和更大的数据量,同时最大程度地利用资源,从而实现对大规模数据进行查询和高效分析。 支持多种工作负载:面向前端丰富的数据场景,需支持包括数据科学、

15、机器学习、流批处理以及SQL和分析的前端需求,通过同一数据存储,适配多种工具来支持这些工作负载。 Bl支持:支持直接在源数据上使用B工具,以提高数据新鲜度,减少等待时间,减少必须同时在数据湖和数据仓库中操作多个数据副本的存储成本。分布式存储优势及发展建议:湖仓一体技术推动数据湖、数仓场景基础设施走向融合,数据基础设施架构从应用为中心走向以数据为中心。在数据湖、数仓数据共享架构下,统一数据存储层、统一元数据层、缓存加速、统一计算调度等成为湖仓一体大数据架构的趋势。 统一数据存储层:在统一存储层,利用HDFS、S3协议实现对接,既能解决海量数据存储的扩展性问题,又能更好的支撑数仓对数据访问的需求,

16、适配已有的数据访问习惯,因此计算侧无需开发新的业务流程,减少对接适配。 统一元数据层:实现统一元数据信息管理,统一权限管控,支持计算热插拔,减少数据搬迁,保证数据时效性及一致性。对统一元数据的选择,目前国内较多的选择HUdi、cebergDeltaLake技术,围绕统一元数据技术,各厂商做了适配,未来一段时期,统一元数据技术将保持各自独立的发展。 缓存加速:湖仓一体的数据缓存层,为计算提供按需的数据缓存能力,减少数据访问的O,从而提升数据访问性能,在实践中,需要构建更细粒度的缓存策略,通过优化数据架构提升缓存命中率,以减少缓存资源的占用。统一计算调度:基于统一存储,构建离线数仓、融合数仓、实时

17、查询数仓、应用分析数仓计算生态,支撑多业务场景。(三)数字化病理通俗来讲,数字化病理是指通过扫描技术对病理数据进行数字化采集(将传统病理的物理切片转换成高分辨数字图像),医生通过数字化切片生成的信息进行病理诊断以及病理数据管理。海量的数字化病理图片数据快速存储访问为分布式存储带来了应用机会,随着国内各大医院数字化升级,这个应用场景的规模正快速增长。病理学诊断是疾病诊断的金标准。数字化技术的出现给病理科业务标准化带来了希望。一方面,将物理切片数字化,使得病理医生能够通过显示器阅片,同时也会打破会诊切片传输过程中的时空限制。另一方面,数字化将流程和记录工作无纸化,提高了病理科的运营效率。集成的数字

18、化系统将记录和归档工作电子化,实现全流程的信息追溯并优化后续的归档管理效率。Al技术的出现为病理科的质控及诊断再添一翼。首先,AI通过自动检测数字切片图像中的异常和错误,来帮助病理医生进行智能质控,确保诊断结果的准确性和可靠性。其次,AI能够辅助医生进行诊断,自动排阴筛查,降低医生工作量。总院数据 基础设旅P1S/A1 软诊/远程病理应用MBlnMlam疑1他涕法,麒据视费会议艇酿据全生命同期存储礴务协议均通冷数电温数抿双屏皆具总院协作 平台图8分布式存储在数字化病理场景应用应用场景特征: 切片文件大:每个切片文件1TGB,传统存储方案阅片速度慢,存在卡顿现象。 数据大:三甲医院年病理数据增量

19、1-2PB/年,是传统PACS影像年数据增量的10倍。 数据保存久:病理数据要求留存15年或30年以上。 数据管理难:多样化的数据来源导致数据分散,难以实现数据共享。分布式存储优势及发展建议: 病理图片二次压缩:传统病理图片压缩后平均大小仍接近1GB,且未能充分利用病理图像的特征以及瓦片之间的相关性。目前业内最新的二次压缩算法可以在数字化病理原压缩算法基础上,做到无损的二次压缩,进一步缩减冷数据存储空间30%以上。 数据分级存储:数字化病理切片数据使用频率和存放周期存在一定的规律,按照数据访问频率和热度进行热温冷分级,可以既兼顾了阅片的性能诉求,又有效的降低科室的存储成本。 实现海量切片并发调

20、阅:一张数字切片由几万个瓦片组成,每次调阅只会加载视野范围内的几十到几百个瓦片,加上要考虑背景压力等混合负载复杂场景,大并发在线调阅对存储的合性能要求较高。可以采用分布式并行客户端、混合O负载优化、多级缓存加速等技术,实现千张病理切片秒级阅片体验。 冷数据存储介质创新:病理切片数字化后,病理数据同样需要保存30年,对于使用频率变低的业务数据,其访问性能要求虽然变低,但这部分冷数据占比最高,所以需要考虑进行存储介质的创新,推荐采用高带宽、可快速读取、支持病理无损压缩算法的蓝光存储来长期保存病理冷数据。多协议互通:科室及医院内不同业务系统的数据类型不同,与存储系统交互使用的协议不同,不同格式数据在

21、科室实际运行交流中存在较大难度,多协议互通技术可以对文件/对象/大数据三个非结构化进行融合互通,帮助科室快速便捷实现数据共享。(四)生物信息分析分布式存储凭借大容量、高性能、高扩展、高可靠的优势是生物信息分析(简称“生信分析”)的最佳数据底座。近几年生信分析的应用越来越多,如代表业务基因测序,这个新兴场景规模也得以快速增加。生信分析是一个典型的巨量数据驱动的行业,如何存储大规模的生信数据、妥善管理海量信息、高效进行生物数据计算、快速调用有效数据进行应用分析等是生物信息分析行业面临的难题。测序仪S交付分析结果海址数据特征一级存储集群懵三自品二级存储集群9三兰F旧三自m 4自习(Ns Q三对计算集

22、群=) Flf图9分布式存储在生信分析场景应用应用场景特征: 大数据量:一次基因测序产生的原始数据量都是TB级别,满负荷下,一台测序仪一年产生PB级数据,加之生物信息分析过程一般会产生原始数据量5倍左右的中间文件及结果。另外还需考虑如何低成本的实现基因数据长时间存储。 高带宽低时延:生信分析计算过程中涉及数据的高速共享与读写检索,对存储的O带宽和实时性要求高,否则可能导致数据不完整。 高可靠:生物学分析往往会通过对比源生物信息产生大量的结果数据,长时间大并发的O读写性能和稳定性尤为重要。 需适配GPU等高并发算力集群:生物学分析涉及大量GPU的业务,数据拆分阶段涉及大量的GPU算力,需要存储适

23、配,并提供极高的带宽和OPS能力。分布式存储优势及发展建议: 海量数据支持:提供标准的文件接口和访问协议。面向分析阶段百亿级别海量小文件,文件操作性能以及文件的读写性能平稳。 性能适配业务需求:兼容高性能低延时网络,提供超高的带宽能力,主流技术路线是使用RDMA;支持GPUDireCtStorage,实现以直接内存的存取方式将数据传输至GPU,降低O延迟,提升数据带宽,充分释放GPU算力,将性能发挥到极致。 数据全生命周期管理:可以满足不同业务阶段的O特征需求,包括大文件的下机带宽性能,数据拆分性能,分析业务阶段的小O低时延要求,以及整个业务流程中的混合大文件小文件并存优化。(五)量化交易随着

24、金融大数据、金融科技、能金融的快速发展,为应对海量非结构化金融量化数据的实时应用分析,分布式存储在量化交易中得以应用。量化交易通过数量化方式及计算机程序发出交易指令,以获取稳定收益为目的的金融投资方式,在海外的发展已有几十年的历史,其投资业绩稳定,市场规模和份额不断扩大,经过多年的发展,量化交易已经成为成熟的金融工具。量化投资技术几乎覆盖了投资的全过程,包括量化选股、量化择时、股指期货套利、商品期货套利、统计套利、算法交易,资产配置,风险控制等。到2020年,量化行业已经到了大数据+AI算法的阶段,在“AI+机器学习”加持下正迅猛发展。图10分布式存储在量化交易场景应用应用场景特征: 基础化数

25、据规模大:量化数据主要分为三类,一是市场的量价数据:交易所量价数据、交易量、成交量、价格、日内订单等;二是基本面数据:上市公司公告几千万条记录、公司财报数据数千万份、各大券商分析报告等;三是另类数据:个股新闻、商品数据、宏观数据、产业数据、个股指标、物流数据、供应链数据、电商数据等。这些数据都会纳入分析数据池中,成为决策依据。 量化交易依托“A1+机器学习”成为行业主流:深度学习的自动提取特征比传统机器学习的人为提取特征过程更加高效,深度学习随着数据量的增加模型效果会不断地改善。Al以其高效的能力将量化分析向着真正的正确等高频操作迈进。量化投研采用神经网络和深度学习的技术,数据规模投入越大,模

26、型精度越高。 数据类型多、信噪比低:由于交易决策需依赖各种信息源,数据来源多,导致数据类型和格式多种多样。金融市场有效信息非常少,干扰数据多。分布式存储优势及发展建议: 海量数据支持、弹性扩展:对于海量的金融数据,存储的容量和性能弹性扩展是长期刚需。 GPU存储直通:由于量化投研采用神经网络和深度学习的技术,数据规模投入越大,模型精度就越高。当前在GPU大算力的环境下,支持GPU直通存储成为关键。 统一命名空间:在量化分析领域,为便于业务快速普及,存储管理要求统一命名空间,数据规模达到百亿级别。(六)边缘计算数字经济时代,5G和人工智能技术不断迭代,物联网市场迅速发展,越来越多的设备实现互联,

27、海量设备产生的数据呈指数级增长,能够与5G高速度、低时延特性相辅相成的边缘计算技术成为智能物联网大趋势下的重要风口,分布式存储灵活高扩展、多协议数据服务、数据共享便捷的特点成为边缘计算构建统一数据存储资源池最佳方案。据Gartner预测,2025年将有75%的数据产生在数据中心和云之外并在边缘侧进行处理。边缘计算与云计算、人工智能、物联网、5G等技术协同,成为国家新基建的核心所在。边缘计算是在靠近物或数据源头的网络边缘侧,融合网络、计算、存储、应用核心能力的开放平台,就近提供边缘智能服务,不仅能够实现流量的本地化处理,以降低对远端数据中心的流量冲击,而且能够提供高带宽、低时延和高稳定的应用运行

28、环境,有利于计算框架在终端和数据中心间的延展,有助于实现场景需求、存算力分布和部署成本的最佳匹配。应用场景特征:超低时延、海量站点、海量数据、传输成本、数据安全、边缘智能等特性是MEC边缘计算场景对分布式存储提出的新挑战,比如工业互联网、智慧交通、云游戏及VR/AR等行业,对超低时延与海量数据传输均有较高要求。 超低时延:从端侧到云侧需避免远距离和多跳网络,实现实时交互、实时反馈,分布式存储需要能够快速响应终端设备的请求,必须具备超低延迟的特点,以便能够及时提供业务所需的数据。 数据安全:部分行业因政策、行业特性、数据隐私要求,敏感数据不能离开地市甚至现场,因此分布式存储需要具备高安全性,能够

29、提供数据的保密性、完整性和可用性,以防止数据泄露和篡改的风险。 灵活性与可扩展性:边缘计算环境常常是动态变化的,边缘节点的数量和分布可能会随着需求而变化,因此分布式存储需要具备灵活性和可扩展性,能够根据需要快速调整和扩展存储容量。 高可靠性:边缘计算环境中,边缘节点可能处于不可靠的网络环境中,易受网络故障、设备失效等因素影响。因此,分布式存储需要具备高可靠性,能够在节点及磁盘故障等情况下继续提供数据服务。 云边协同:通过跨节点调度,将边缘节点的存力、算力等资源和中心云统一管理,形成“逻辑集中,物理分散的分布式云平台,在应用管理、数据、资源等方面实现协同。 边缘能:在更靠近数据产生和使用侧处理业

30、务,满足实时或近实时的数据分析、处理,缓解中心云的计算和存储负载。分布式存储优势及发展建议: 数据长期低成本存储:具备高性能EC、高效数据压缩、冷热数据分层流动等能力,降低数据整体存储成本。 快速检索:具备自动标签、秒级查询等能力,满足多维度回调、秒级查询要求,提高数据检索效率。 多协议互通:数据零拷贝,需无缝对接A分析平台,生产数据直接共享NFS进行A训练; 支持大数据分析:将边缘节点所生产数据进行统一存储,整体大数据分析,优化企业流程和成本。 保障数据安全:具备快照、WORM、容灾备份等特性防止数据篡改,保障数据安全;(七)数据网络2023年3月10日,美国国家能源局推出了高性能数据基础设

31、施(HPDF)计划,要求实现全美东西海岸40多个教育科研机构数据互联互通,以满足其大量协同计算及数据迁移共享需求。自2022年起,我国也在进行数据网络的创新研究,它将是分布式存储未来应用的一个重要场景。核心需求是在不同的算力平台之间实现高性能算力任务数据的高效流动,构建一个便捷的算力数据网络。这一网络以高性能算力任务和数据流动为中心,能够跨越不同的架构、地域和服务商,为Al大模型、边缘计算、科学计算等高性能任务和大数据应用提供多层次、标准化和普惠的网络、算力、数据服务。应用场景特征: 跨地域:“东数西算”政策驱动下,东西优势互补加速跨区域算力互联。分布式存储具备跨地域、服务标准化的特点,是企业

32、当前海量数据存储的载体。 跨架构、跨服务商:超过92%的企业已经是多云架构,分布式存储在跨服务商、跨架构层面还不够完善,需要在生态上补齐。 大数据量:数据网络面向的业务场景是高性能算力任务。像人工智能大模型、科学计算等场景都是大数据量的算力任务。面临大数据量跨域、跨服务商、跨架构流动的挑战。分布式存储优势及发展建议: 存储层构建数据跨域、跨云流动能力:数据从产生、储存、传输、处理、共享甚至销毁都离不开数据存储,相较于多云架构的其他各层,数据存储层在数据相关的操作上有着天然的优势。通过PaaS层进行的数据流动,需要将数据从本地数据存储中读取出来,再通过消耗应用和算力资源才能将数据流动到另一端,到

33、另一端后,同样需要消耗应用和算力资源接收数据,并最终将数据储存到另一端的数据存储中,而通过构建良好的多云数据存储系统,数据只需要从本地的数据存储远程复制到另一端的数据存储中,少量甚至无需占用算力资源,且流动效率最高,通过设置针对性的流动策略,还能够实现数据流动,应用无感。 面向多云构建统一数据底座,扩大数据共享应用:针对企业数据存储资源池,统一划分性能区间、服务类型、灾备配置、增值服务等指标,构建跨云全局一致的存储服务SLA,并基于标准化AP把存储资源提供给多个云支撑各类应用和数据服务,实现数据一池共享,应用多云部署。 构建全局文件系统,形成数据互联网络:面向多云环境,向用户提供统一数据视图,

34、用户看到单一存储空间,并通过文件、对象、HDFS等多种标准协议,文件全局可视,逻辑上多个云环境下数据底座成为一个文件系统,可进行数据全局调度。用户按照权限在同一个命名空间下访问跨云、跨数据中心的数据。企业数据管理员制定统一元数据策略、检索统一元数据,并管理各数据中心文件状态。四、技术透视,展望分布式存储发展趋势为助力产业健康发展,产业方阵持续跟踪分析最新技术发展趋势,从架构、软件功能、硬件技术、生态发展四个维度,分析解读当前分布式存储领域最新关键发展趋势,解析各创新技术价值,洞悉分布式存储发展趋势。(一)架构方面,向融合负载、更高密度、更快网络发展1、多协议融合架构承载多业务混合负载在AI、H

35、PCHPDA、大数据、云原生等数据密集型应用的发展推动下,数据量呈现爆发式增长,并进一步促进了IT与各类应用的融合。另一方面各类应用的非结构化数据占比越来越大,数据类型更加复杂多样,对存储系统提出了更高的数据管理和混合负载的要求。当前分布式存储在向支持AI、HPC、HPDA、大数据、云原生、虚拟化等应用中向多协议融合的多负载混合架构上演进。不同于传统的支持单一业务的方式,数据中心要求一个分布式存储系统同时提供文件、对象和大数据的访问能力,减少协议网关带来的性能损耗,并且多种协议共享同一套硬件资源。Gartner预计到2028年将有70%的文件存储和对象存储部署在一个统一的数据存储平台。同时HPC、HPDA及Al技术的兴起带来了混合负载的业务诉求,要求一套分布式存储系统支持不同类型、不同负载的应用系统,并能提供更高的性能来支持混合负载业务的多样化IO诉求,既能支持大文件的高带宽,也能支持海量小文件的高IOPS,以便作为稳定可靠的数据存储底座为上层业务提供高效支撑。2、单框多节点架构提高容量性能密度随着广义高性能计算(HPC)业务如人工智能、机器学习和大数据处理的迅速发展,对存储系统的需求也日益增加。这些业务需要高IO带宽、高IoPS和低延迟

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号