【研报】运营商AI先进存力白皮书-2023_市场营销策划_2023年市场研报合集-12月份汇总_do.docx

上传人:李司机 文档编号:6748282 上传时间:2024-01-18 格式:DOCX 页数:34 大小:1.03MB
返回 下载 相关 举报
【研报】运营商AI先进存力白皮书-2023_市场营销策划_2023年市场研报合集-12月份汇总_do.docx_第1页
第1页 / 共34页
【研报】运营商AI先进存力白皮书-2023_市场营销策划_2023年市场研报合集-12月份汇总_do.docx_第2页
第2页 / 共34页
【研报】运营商AI先进存力白皮书-2023_市场营销策划_2023年市场研报合集-12月份汇总_do.docx_第3页
第3页 / 共34页
【研报】运营商AI先进存力白皮书-2023_市场营销策划_2023年市场研报合集-12月份汇总_do.docx_第4页
第4页 / 共34页
【研报】运营商AI先进存力白皮书-2023_市场营销策划_2023年市场研报合集-12月份汇总_do.docx_第5页
第5页 / 共34页
点击查看更多>>
资源描述

《【研报】运营商AI先进存力白皮书-2023_市场营销策划_2023年市场研报合集-12月份汇总_do.docx》由会员分享,可在线阅读,更多相关《【研报】运营商AI先进存力白皮书-2023_市场营销策划_2023年市场研报合集-12月份汇总_do.docx(34页珍藏版)》请在三一办公上搜索。

1、.f i. B BAmixfM 4.1.Il .,X运营商Al先进存力白皮书汇聚产业新动能,共创Al新时代-2023年-二版权声明本白皮书版权属于中国移动通信有限公司研究院、中国联合网络通信集团有限公司、中国人工智能产业发展联盟、华为技术有限公司和中国科学技术大学,并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明“来源:中国移动通信有限公司研究院、中国联合网络通信集团有限公司、中国人工智能产业发展联盟、华为技术有限公司和中国科学技术大学”。违反上述声明者,编者将追究其相关法律责任。编写委员会顾问陈国良、周跃峰指导委员会刘景磊、赫罡、魏凯、庞鑫、顾雪军编委陈佳媛、闫哈、童

2、俊杰、李诚、靳震、曹晓峰、箭昊、曹峰、丁志彬、何雨今、王振、王旭东、周宇、杨小林、纪悻、韩茂、蒋海林、钟毅、蔡钊、易恩来、蓝文海、谭华、苟欣、沈荣锋、孙睿、江军航、郭洪星、黄维恩、阮政委、孙晓艺、宋天宇、段芳成、钟昭、宋建嘉主编单位中国移动通信有限公司研究院、中国联合网络通信集团有限公司、中国人工智能产业发展联盟、华为技术有限公司、中国科学技术大学类社会正在跑步进入通用人工智能时代。从AIphaGo到ChatGPT,人工智能领域的里程碑事件不断涌现,GPT-4首次展现极强的语义理解能力、内容生成能力和持续对话能力,这是一个新时代来临的标志。产业界纷纷加强大模型相关领域的研究,并推出一些新产品和

3、新应用,传统信息产业生态正在被重塑。运营商作为ICT基础设施建设的主力军,迎来Al发展的新机遇。从对内网络业务角度看,大模型将会加速运营商网络智能化升级。首先,利用人工智能的分析、策略优化与预测等能力来赋能网元、网络等业务系统,有助于提升电信网络的智能规建、智能运维、智能管控能力。其次,通过人工智能设计套餐,符人工智能嵌入用户流量管理中,有助于提升网络运营、市场营销、客户服务的效率。同时,借助大模型还可能对6G智简网络以及云网融合的研究提供帮助,促进6G技术迅猛发展。从对外政企业务角度看,大模型也将助力运营商赋能干行百业智能化升级。结合运营商的数据优势、算力优势、行业使能经验优势,运营商将成为

4、数字经济智能化的关键一环。一方面,将运营商的大模型能力外溢至行业客户,面向政务、教育、医疗等推出行业大模型新应用,这也是当前运营商重点发力的方向。另一方面,结合运营商算力、网络等资源优势,为大模型创业者和研发机构提供智算服务,做AI淘金时代“卖铲人”。运营商要抓住大模型的发展机遇,首先需要构建领先的Al基础设施,尤其是数据存储能力,也即存力。在大模型场景中,先进数据存力尤为重要。大模型的参数和数据规模都呈指数级增长,对存储的扩展性、稳定性、性能、时延等都提出更高要求。比如一个训练批次前后的数据加载和保存阶段,如果存取性能不足,会导致计算资源(如CPU、GPU等)的浪贽。存力是算力价值的前提和基

5、础,只有数据存得好、算得快、传得稳,整个Al基础设施才能够更好发挥算力的作用。本白皮书重点研究了运营商如何构建Al先进存力,一是分析目前运营商行业Al场景的总体发展态势与应用现状,展望了运营商作为国家数字经济发展引擎的重要作用。二是分析支撑大模型应用的Al基础设施存在的挑战,分析得出Al先进存力是构建领先Al基础设施的关键一环。随着Al与通信产业的深度融合,Al大模型不仅会赋能网络的泛在智能能力,还将助力运营商推动千行百业智能化升级。前行不缀,未来可期。通用人工智能奔涌而来,赋能数字经济的全面智能化升级。运营商引领时代潮流,智算底座将成为千行百业创新变革的重要基石。陈国良中国科学院院士(S;)

6、彳、力二大模型席卷全球的热潮中,人们已经深刻认识到仕人工智能作为经济社会发展中一项革命性技术力量,将驱动全球产业实现巨大飞跃甚至跨越式发展,深刻影响未来世界的竞争格局。通信行业作为信息通信基础设施的建设者和运营者,既为Al的发展提供基础设施支撑,又将会是Al应用落地的先行者。大模型时代,数据决定Al智能的高度。更多的训练数据是Al模型迭代升级的前提,更高的数据质量也决定着大模型训练的效果。国内要发展人工智能,并使这一产业得到高速的发展,一定要重视数据和信息的数字化记录。如今,国内建设了大量的数据中心,算力相对较多,但存力较少,很多高价值的信息都没有被记录下来。作为数据的载体,数据存储成为Al大

7、模型的关键基础设施。构建Al先进存力是构建领先Al基础设施的核心条件之一。大模型的持续创新突破,需要从数据的角度对Al全流程进行优化。首先,数据归集阶段要高效处理多地域、多分支收集PB级多样化的原始数据;其次,在模型训练阶段需要对海量小文件的随机读取以及模型数据集快速保存:最后,在模型推理阶段需要快速检索增量源数据和向量数据。这些挑战都需要创新的Al存储解决方案,比如通过智能数据编织,实现跨系统、跨地域的全局统一数据视图和调度;通过近存计算,卸载部分数据预处理能力,减少数据搬迁,缩短数据准备时间;通过全闪存分布式存储,实现存储节点千万级每秒读写次数(IOpS,Input/OUtPUtPerSe

8、cond)和数百GB/s带宽,提升训练效率;通过向量存储,实现高性能向量检索能力。华为公司在数据存储产业上的大规模投入超过十年,提供专业Al存储支撑大模型蓬勃发展,助力运营商引领新时代。通过与业界专家、客户和伙伴深入交流,中国移动研究院、中国联通、人工智能产业发展联盟、华为和中国科学技术大学联合编写了本白皮书。白皮书详细阐述了Al先进存力对运营商Al先进基础设施的支撑作用,建立了一套综合的评估Al先进存力的特征体系,可有效牵引对人工智能计算中心的科学规划。我相信这是一次非常有意义的探索,将凝聚更多的行业力量共同推进运营商Al产业的发展。凡人微光,汇聚成炬。华为愿与产业各方更加紧密携手努力,汇聚

9、产业力量,共创运营商Al新时代。周跃峰博士华为公司副总裁图目录图/数据模型迭代全生命周期03图24大模型全流程存储需求分析13图3算力中心架构到存力中心架构18图4多业务接口的统一存储逻辑图19图5传统文件系统架构向并行文件系统架构发展21目录CONTENTSOlAl发展概述Ol1.1Al基本概念Ol.2Al发展阶段021.3我国Al大模型发展现状0402运营商是助推Al强劲发展主力军052.1 运营商高度重视Al发展052.2 运营商应用Al的主要方向0903运营商Al存力挑战Ii3.1 Al存力是运营商发力大模型的基础Il3.2 运营商Al存力面临的主要挑战1304Al先进存力发展趋势17

10、4.1 Al先进存力内涵174.2 Al先进存力关键技术1805运营商Al先进存力产业发展建议251参考文献27HAl发展概述ZlI.IAl基本概念工智能(ALArtificialIntelligence)是指通过计算机技术和算法模拟人类智能的一种技术。它可以让计算机像人一样思考和学习,从而实现自主决策的智能化行为。Al已在计算机视觉、智能语音、自然语言处理等应用领域迅速发展,开始像水、电、煤一样赋能于各个行业。Al主要分为分析式Al和生成式AL传统分析式Al主要用于分析式应用,即对输入内容进行分析和判断,生成输出分析结果,如推荐系统、图像识别、智能语音等。在传统的分析式Al时代,只能根据已有

11、的数据进行学习和预测,无法处理新的、未知的情况。生成式Al主要用于内容生成,即使用Al生成新内容,如文本、图片、音频、视频等。生成式Al在学习归纳已有数据的基础上,学习数据产生的模式,并创造数据中不存在的新样本,实现了从数据分析到内容创作的跨越式发展,打开了Al应用新市场,己在文字创作、代码生成、图像生成等多场景实现了应用落地。111.2Al发展阶段占人工智能科学诞生至今60多年的发展历史过日程中,人工智能经历了三次发展高潮,分别是1956到1970年代,1980到1990年代和2000年代至今。1959年ArthurSamuel提出了机器学习,推动人工智能进入第一个发展高潮期。此后70年代末

12、期出现了专家系统,标志着人工智能从理论研究走向实际应用。80年代到90年代随着美国和日本立项支持人工智能研究,人工智能进入第二个发展高潮期,期间人工智能相关的数学模型取得了一系列重大突破。1997年,IBM深蓝战胜了国际象棋世界冠军GarryKasparov,是一个里程碑意义的事件。这个时期的Al训练数据多为结构化数据,存储方式以本地盘存储形式为主。当前人工智能处于第三个发展阶段,2006年加拿大Hinton教授提出了深度学习的概念,极大地发展了人工神经网络算法。随后以深度学习、强化学习为代表的算法研究的突破,算法模型持续优化,极大地提升了人工智能应用的准确性。这个时期的Al训练数据多为文本、

13、图片、音频等单模态数据,存储方式为本地盘或存储池形式的外置存储。近年来深度学习发展高潮迭起,Transformer大模型的问世推动深度学习模型参数量从几万跃升至数千亿甚至更大,模型层数从开始的个位数逐步发展到成百上千,原始数据集也达到PB级,为满足大模型对存储的性能和容量需求,外置存储进一步升级为“性能型存储+容量型存储”。大模型实现了更好的泛化能力和更高的性能,正在成为Al发展的新范式。一方面,大模型实现了多场景覆盖、精度限制突破、泛化能力增强和研发能力自动化,成为了Al走向产业化应用的重要途径。另一方面,大模型也改变了Al模型的开发方式,客户无需针对单个场景再开发单独的Al模型,而是由Al

14、大模型厂商开发基础的Lo层模型,由行业IT供应商开发Ll层的行业模型,应用场景IT供应商提供L2层的细分场景模型。基础模型LO科研机构行业模型Ll科研机构+行业伙伴自动驾驶金融风控灵活适配细分场景违约14险3C侦桧流行元素识别标注舞弊动机识别汽车制造巡检辅助设计财务异常tSS鲂织研检门店半定制需求、数据、经验结构化表示沉淀反馈细分场景模型L2科研机构+行业场景化专家沉淀行业Know-how图/数据模型迭代全生命周期:1.3我国Al大模型发展现状臼2020年起,我国的大模型在数量和技术水平日上都有明显提升,涵盖了智能语音、计算机视觉、自然语言处理等多个领域,并在能源、金融、航天、制造、传媒、城市

15、、社科以及影视等领域应用落地。从大模型的布局体系来看,科技大厂在算力层、框架层、模型层、应用层进行了四位一体的全面布局。华为、百度均从芯片到应用进行自主研发的全面布局,如华为的“昇腾芯片+昇思框架+盘古大模型+行业应用”、百度的“昆仑芯+飞桨框架+文心大模型+行业应用”。垂直行业企业和科研院所,主要以大模型算法研发和细分领域应用为主。从大模型参数量看,科技大厂和头部科研机构已上线的大模型参数量普遍在千亿级以上,如阿里通义千问大模型参数在IO万亿级以上、腾讯混元大模型和华为盘古大模型参数量均在万亿级以上、百度文心一言大模型参数量在2千亿级以上,上海人工智能实验室书生浦语大模型参数量在千亿级别。从

16、大模型业界评价看,国内大模型处于百花齐放状态。综合实力方面,头部科技为如华为、百度、阿里、腾讯等在大模型研发投入、技术能力和人才团队方面均有较强实力。商用推进方面,头部科技大厂均依托现有业务领域进行大模型应用推广,更容易形成大模型的规模化应用。R运营商是助推Al强劲发展主力军2.1运营商高度重视Al发展信运营商作为ICT基础设施的建设者和运营者,拥有全国跨域网络互通、云网融合统一-纳管的资源优势,也担当着全社会数智转型主力军的重任,因此在人工智能产业飞速发展的过程中,也在抓住新机遇加快构建新一代Al基础设施,提供澎湃算力、先进存力、品质运力,赋能干行百业。IlI.中国移动Al战略布局中国移动在

17、2013年开始人工智能领域战略布局,现已形成从算法、平台、到规模化应用的产业级智能化服务能力。其九天平台已具备在计算机视觉、自然语言处理、智能语音、网络智能化等多领域的Al能力,跻身央企“AI国家队”。中国移动已发布九天海算政务大模型和九天客服大模型。依托九天海算政务大模型,政务服务系统将具备强大的政务事项理解能力、多维度的信息关联能力、面向复杂事项和复杂流程的多元交互能力。九天客服大模型既可根据用户提供的自然语言描述,解析用户问题并提供答案,又可以与人工客服协作,为人工客服提示回复建议,形成“大模型一人工坐席一用户”的三方沟通场,极大提升人工客服的工作效率.Al技术也已经在中国移动的多个业务

18、领域实现规模化应用,助力管理、服务等多方面能力提升。例如智能客服月交互量从5000万提升至2.1亿,准确率达92%;反诈骗系统月度拦截电话量超过1400万,准确率高达98%;声纹识别防欺诈防骚扰电话准确率已达98%o中国移动正在围绕智慧网络构建国家新一代人工智能开放平台,加速“通信网络+人工智能”的关键技术突破。一是围绕网络规划和运维业务,建设智能化仿真实验环境。利用人工智能技术,提供覆盖优化、多目标天线优化、大话务量业务保障、无线CSI压缩及反馈等业务。二是面向社会开放多场景Al基础设施,如对ICT企业、高校、科研机构、行业组织等提供算力、数据、算法、平台等资源。同时,中国移动在2023年8

19、月发布的中国移动NICC新型智算中心技术体系白皮书中对“新存储-挖掘数据价值”做了详细阐述,通过计算与存储的交互过程总结出智算场景存储面临的性能,容量和调度关键挑战,最后提出多协议融合存储贯通异构数据,全局统一存储打破单体局限和基于计算总线构建统一内存池等解决方案。Il2.中国电信Al战略布局中国电信在2019年到2020年期间,确定了云网融合人工智能发展战略,先后发布了中国电信人工智能发展白皮书、云网融合2030技术白皮书,同时围绕业务中台、数据中台、安全中台、原子能力平台和云网技术底座提出“三中台一平台一底座”的数字化平台顶层架构,明确了云网蓝图。基于云网融合优势以及天翼云多年的技术沉淀,

20、中国电信推出智能计算平台“云骁”,提供智算、超算、通算多样化算力服务。依托天翼分布式架构云底座,“云骁”可提供软硬一体的解决方案,实现高阶算力供给、资源高效利用,助力行业数字化转型,降低企业创新成本。中国电信于近期推出星河通用视觉大模型2.0,旨在为状态检测、动作事件、工业生产等场景提供服务。星河大模型参数量已从IO亿提升至100亿,并融入图像、视频、语义多源信息,其语义理解能力、视觉感知能力、精细分割和空间交互关系能力均得到进步提升。天翼云智能计算平台还为客户提供大模型训练和微调服务。通过“云骁”平台提供分布式训练一站式解决方案,进一步缩短模型交付周期、提升Al训练开发效率。此外,针对技术合

21、作伙伴,中国电信提出了“云创计划”,云存储是云创计划的5个领域之-O云存储重点解决多场景存储问题,聚焦数据存储搭建、融合Il3.中国联通Al战略布局中国联通的Al应用战略包括两部分。一是对内提供智能化运营,如5G+AI智能运营平台,利用Al提供网络故障定界问题能力。二是对外提供一站式创造服务,如一站式AIGC(ArtificialIntelligenceGeneratedContent,人工智能生成内容)创造工厂。中国联通已经发布鸿湖图文大模型1.0,其具备以文生图、以图生图、视频剪辑等功能。随着移动互联网的快速发展,用户对于个性化、原创性的内容需求也越来越高,传统的图像、视频生成方式无法满足

22、用户的需求,鸿湖图文大模型的推出填补了这一空白。通过该模型,运营商可以为用户提供丰富、有趣的图文内容,进一步提升其增值业务的竞争力和用户体验。鸿湖图文大模型的应用潜力巨大,可被广泛应用于媒体、广告、娱乐等多领域。媒体领域,鸿湖图文大模型可以帮助媒体机构高效、快速地生成新闻稿件配图;广告领域,鸿湖图文大模型可为广告公司提供广告创意和广告图像;娱乐领域,鸿湖图文大模型可以为用户创造丰富多彩的虚拟世界。联通还在全力打造UniVerse元宇宙平台,推出一站式AlGC创作工厂一一联通元宇宙AlGC平台。该平台是联通面向Al商业落地布局的重要一环,包括Al跨模态检索、Al图片驱动、Al音乐、AI主播、Al

23、绘画、AIGC3D数字人等多种功能。此外,联通云7.0面向HPC/AI场景推出文件存储系统,目标是做Al时代的良田沃土。相对传统存储显著进步的地方有三点,一是更高的性能,包括高吞吐量以及部分计算场景下要求非常低的时延,以减少计算集群等待时间,让平台持续高效的运转;二是可扩展,Al时代下,存储的性能可扩展、容量可扩展成为承接巨量数据、高增速、高性能计算要求下的硬性要求;三是多接口,包括POSIX.S3、ISCSl等协议接口。112.2运营商应用Al的主要方向Il1.对内融入现有业务,提升业务效率Al应用与运营商现有业务结合,实现业务效率提升。通信网络侧,Al技术可以快速定位网络故障、简化网络优化

24、流程,让运营商网络更加安全、稳定、可靠。客户服务侧,Al技术可以帮助运营商更好地满足客户服务需求,增加客户参与度,提升用户体验。依托人工智能的语音识别、自然语言处理、人脸识别、知识工程等技术,运营商可以让Al技术与现有业务结合,大幅提升运营、运维效率,改善用户体验。网络优化方面Al能够在移动网络和固定网络“规建-维优”的各个环节得到应用。网络智能配置方面,人工智能技术结合网络历史数据,将专家经验数字化,通过对网络性能的预测和自动化操作配置,有望实现移动站点智能规划、基站业务快速开通、智能路径规划和光传送网自动化部署等应用。网络智能运维方面,人工智能技术可实现物联网端到端质差识别定位、无线网络异

25、常小区发现、IPRAN故障分析定位等应用,可有效减轻运维人员负荷、提升运维故障处理效率。网络智能管控方面,人工智能技术可基于网络历史数据实现多种应用,如智能频谱管理、智能切片管理、智能负载均衡、智能缓存管理、智能路由、自适应传输功率控制与传输质量管理等。网络智能优化方面,人工智能技术可实现网络的主动优化和全局优化,包括移动性管理增强、智能基站节能、无线网策略参数智能优化、智能路径优化等。客户服务方面Al技术可以降低人工客服中心的负载,减少客服中心的成本,提高客户满意度。同时,Al能够在智能语音助手、坐席助理、智能推荐、自助服务、社交媒体管理、个性化服务等多个场景提高客户服务的质量和效率,满足客

26、户日益增长的个性化需求,帮助企业更好地服务客户,提高竞争力和盈利能力。以ChatGPT为代表的大模型技术的出现,将会加快智能客服的发展,在语义理解、情感识别、知识搜索定位、客户体验等方面提升效率和体现。Il2对外赋能产学研用,推动智能升级Al大模型作为数据、算力、算法三位一体的产物,对Al基础设施的需求高、投入大。以OPenAl为例,根据公开资料,ChatGPT初期估计投入高达8亿美元,GPT-3的训练总成本也高达千万美元,一般企业很难承担如此高昂的基础设施成本。运营商可以将自己的Al基础设施(AlIaaS).平台能力(AlPaaS)、Al模型(AlMaaS)以服务的方式租赁给Al创业者和研发

27、机构,帮助企业降低Al业务开发的难度和成本。运营商利用自身的网络、用户、平台和数据等优势,能够更好的面向企业、政府发挥作用,打开新的市场空间。中国电信启动了大模型生态合作联盟。该联盟将推出数据合作计划、亿元算力扶持计划、千万创新激励计划、品牌支持计划、渠道支持计划、资本赋能计划六大合作伙伴政策。同时,中国电信表示将依托云网融合优势,打造四级智能算力体系,围绕行业应用需求,联合产业链上下游生态合作伙伴,为千行百业量身打造定制化的行业应用大模型,促进各行业数字化、智能化转型升级。中国移动的九天海算政务大模型首创“政务大模型信息场应用”端到端政务服务体系,一网通办的服务理念将被更加安全、高效地体现在

28、群众的办事体验中。对于政府工作人员,通过大模型和信息场的联动,快速获取直观的数据分析结果,满足工作人员动态管理、公文写作等需求,实现跨层级、跨地域、跨业务、跨系统、跨部门的高效政务治理体系。中国移动将构建九天大模型全方位合作生态,联合顶尖高校、科研机构加速大模型关键技术创新,汇聚优秀基础软硬件伙伴,打造先进人工智能算力基础设施,携手业界龙头共建大模型,共助千行百业智能化应用创新。中国联通的鸿湖图文大模型可以实现文本生成图像、视频剪辑和图像生成图像等功能。中国联通还携手华山医院、上海超算中心等单位发布了“Uni-talk”医疗算网大模型。该大模型是一款为医疗行业定制的大模型产品,功能类似Chat

29、GPT,不过更加聚焦于医疗领域的应用。华山医院会将“Unitalk”应用于专业医学文献检索,辅助诊断等场景。“算力、数据、算法”三位一体的驱动下,运营商有望迎来Al与数字经济带来的第二增长曲线,Al发展带来的流量增加,将会直接带动运营流量收入上行。运营商作为数字时代的中坚力量,其价值也将进一步凸显。I11运营商Al存力挑战113.1Al存力是运营商发力大模型的基础*前我国三大运营商均已发布各自的Al战略、3Al平台、Al大模型,甚至是行业大模型。运营商在全面拥抱Al新机遇时,会充分发挥其既有的数据优势、资源优势、行业使能经验优势,全力打造领先的Al基础设施,依托算网融合的能力,让Al服务无所不

30、达。面向大模型应用的Al基础设施除了对算力有极高的要求外,对网络传输能力和数据存储的能力也提出了更高的要求。中国工程院院士倪光南指出“存力、算力、运力缺一不可,只有三者平衡配置、均衡发展,才能充分发挥算力的作用”。从运营商对内融入现有业务降本增效来看,需要存力系统具备数据统一调度能力。运营商首先要汇聚各地域的网络数据,然后基于最新的业务系统运营情况及时更新数据。这些数据可能来自不同地域的业务系统、不同厂商的公有云或私有云、不同的合作单位或生态伙伴。这就需要构建支持全局统一数据视图的存力系统,以解决跨厂商、跨地域、跨云的数据统一调度问题,为大模型注入源源不断的数据“燃料”。从运营商对外赋能干行百

31、业智能化升级来看,需要存力系统满足低时延、大带宽。运营商需要高效训练出各类行业大模型并提供敏捷、精准的推理服务。大模型的训练周期长、训练数据量大、训练流程业务模型差异大,需要运营商具备同时满足极低时延、超大带宽、混合负载自适应均衡的存力系统,减少计算对数据读写的等待,为行业大模型提供动力澎湃的数据“引擎”O从运营商提供大模型服务来看,需要存力系统满足数据全生命周期的高安全、高可靠。大模型在训练和推理过程中产生的关键节点数据和最终的模型文件数据都是企业的核心资产。一方面需要保障Al服务的高可用性,避免被设备故障或自然灾需中断,另一方面还需要保障核心数据资产的安全,避免被病毒勒索等人为攻击。为此,

32、运营商需要构建端到端基于数据全生命周期的可靠存力系统,为大模型提供坚实可信的数据“护盾”。综上所述,存力为大模型提供海量数据存储支撑和高效训练推理支撑,同时又为安全可靠的大模型服务保驾护航,是运营商发展好大模型最重要的基石之一。流程阶段计算处理流程预处理服务器格式标准化幡误刿正异常数据清理小复数据清除HDFS 协议 POSIX基础大模型训&推理行业模型训推体化zc eM Q尊No2款据存行.CPUI数据处理流程协议互通NAS3多林议融合互通训级集散据察引致据GDSPosix 兼容动态混合负我向量存储加速向做库CheckPolnt存储需求全局数据管理海址数据拈续扩容牛.态汇通NAS/HDFSPo

33、six兼容小文件Ift IO并发原始数据、训练数据共池训练数据集:读时殛满足GPU无Wait业务数据接入生态适配HDFS/NAS/S3海fit数据持续扩容Checkpoint:岛带宽,少耗时数据安全113.2运营商Al存力面临的主要挑战、一营商丰富的Al应用对传统IT基础设施带来了全面的挑战,运营商依据Al业务流(数据获取、数据预处理、运模型训练、推理应用)独立建设存力设施后,设备多、版本多、冗余数据多、数据管理复杂等问题不断累积,进而出现了数据容量、数据传输、数据管理、数据安全、数据节能等维度的Al存力难题。数据获取数据预处理模型训练推理应用方收集、网络腿取、边缘汇聚原始数据,训练数据原始数

34、据+询练+调优+评怙模型输入数据+模组AVectoO应用图2-A/大模型全流程存储需求分析IlI.容量挑战运营商传统的IT基础设施主要应用于超算、大数据等领域,无法满足Al大模型对存力平台的诉求。容量层面主要面临以下三方面的挑战,一是灵活性不足,随着大模型的发展,模型进入万亿级参数、PB级存储时代,这使得传统的单机模式和服务器盘集群建设难以满足千亿级文件系统管理、PB级存储持续扩容以及数据响应性能要求。二是开放性不足,多模态大模型需要Al存力设施支持多样性的数据存储需求,传统的建设方式需要为每一种新的数据类型配备对应的存储设备,这限制了系统的开放性和灵活性。三是建设难度大,Al业务流在数据获取

35、、数据预处理、模型训练和推理应用的各个阶段对数据存储的诉求差异极大,传统的独立业务域存储建设模式难度极大。因此,新型的Al存力一方面需要同时支持NAS/S3/HDFS/POSIX等传统数据服务接口,另一方面需要持续创新,支持训推阶段向量信息的新型存储格式。数据格式多协议互通互享,可以有效降低数据存储空间,并提高数据管理效率和向量数据访问性能。Il2.传输挑战(1)数据跨域调度运营商在发展Al大模型业务时,需要获取来自不同机构的多样化数据,包括互联网、企业内部、合作机构和省分公司等。为了最大化利用存储能力,需要实现高吞吐和大容量数据传输。然而,传统的建设模式选择不同的计算资源、网络资源和存储资源

36、构建基础设施底座,多样性的设备带来了业务难迁移等问题,使数据难以流动。因此,新型的Al存力一方面需要建设统一的数据湖存储实现大容量的数据传输。(2)数据高效流动大模型训练任务对内存和显存带来较大挑战,数据需要在计算、Cache,高带宽内存(HBM,HighBandwidthMemOry)、DDR内存设备之间频繁移动,缺乏统一内存空间的寻址会导致编程模型变得复杂,也会限制设备之间的协作,增加了开发难度和错误率。同时在DDR内存和HBM之间数据需要多次转换,异构设备既无法直接共享数据,也无法充分发挥各自的优势,这些因素都限制了系统整体性能的提升。因此,需要引入统一的内存引用方式和服务调用接口总线技

37、术,如灵衢总线(UB,UnifiedBUS)或CXL(ComputeExpressLink)等技术。这种总线技术提供了基于内存语义的数据中心资源池化和高效共享机制,允许程序地址的直接引用,并支持分布式执行的远程功能调用,从而满足了包括Al大模型、大数据分析和云超算等在内的多种紧耦合、大规模、高性能计算需求,有助于数据中心高效率编程,从而极大地提高了数据中心的性能和效率。Il3.管理挑战大模型从单模态走向多模态,多样化的数据类型给数据存储管理带来了巨大的挑战。一是大模型训练需要复杂的文件读写,数据存储系统不仅需要支持千万级IOPS和数百GB/s的带宽诉求,而且需要在技术和管理方面进行不断的改进和

38、创新。二是大模型训练面临计算处理能力瓶颈。大模型训练时需要在CPU上执行复杂多阶段的数据预处理流程,包括提取、转换、加载等,如何通过存储系统管理降低CPU的数据预处理负担是新的挑战。因此,新型Al存力需要从数据全生命周期管理的角度解决上述问题。一是基于全域数据管理发现无用数据、冗余数据、热温冷数据等;二是提供数据分布视图并指导用户进行数据存储的重新规划,减少存储开销,同时支持数据和模型云边调度及推送能力;三是构建全局虚拟数据总线,为Al平台提供全局数据空间,以及安全、高效、易用的数据存力网络。Il4.安全挑战运营商的人工智能计算中心是国家的重要基础设施,是推动科研创新和工业发展的关键动力。Al

39、存力平台是人工智能计算中心的重要组成部分,在安全保障体系建设过程中,需要满足供应安全和自主可控,包括国产控制CPU系统管理芯片、接口卡处理芯片、固态硬盘控制芯片,以及自主可控的数据存储介质等,从根本上保障Al先进存力平台的供应链安全。Al存力平台汇聚了海量数据和高价值大模型文件,需要维护数据的机密性、完整性和可用性。一是在应用层提供安全的开发环境,如账号安全性、数据安全性、权限安全性、编码安全性等能力。二是在系统层对使用的操作系统、数据库和中间件容器等进行安全保护。三是在网络层对网络设备以及通信提供保护。四是在管理层对系统维护、运作活动进行监管和保障,确保系统安全的连续性。通过各个层面的分工配

40、合,可以为业务系统提供安全、可靠、稳定的服务,并为客户提供资产安全保障.然而,对于数据存储系统来说,还需要进一步做好数据层面的防护。数据安全的威胁主要集中在数据破坏、数据泄露和数据勒索等方面。为了防止数据被破坏、被窃取和被勒索,需要有效地识别攻击,并在受灾后恢复数据。Il5.节能挑战运营商是实现“双碳”目标的重要力量,电信业务系统的数据迁移会产生能源消耗,在业务全周期内减少数据迁移次数,能够大幅优化能耗开销。然而,当前Al业务系统内部的多类数据迁移操作相互独立,缺乏对数据系统级和AI作业生命周期级别的数据排布规划,导致数据迁移的代价较大,严重影响了系统效率,消耗了大量的存储计算资源。因此,如何

41、在系统架构上减少低效数据处理和无效数据迁移所带来的巨大能耗开销,是当前面临的关键挑战。在碳中和目标下,运营商节能减排和绿色转型势在必行。面向未来的存力平台需要结合Al业务特征进行能耗优化。一是宏观架构上存算协同,计算、存储资源独立部署,通过高通量全局虚拟总线互联,虚拟总线统一内存语义访问数据,实现计算、存储资源灵活调度和利用率最大化。二是微观上存算-体,减少数据非必要迁移,在数据产生的边缘、数据流动的网络、数据存储的系统中布置专用数据处理算力,根据业务支持算子下推,将其卸载至DPU,内存、盘控制器,提升数据处理效率。mAi先进存力发展趋势114.1Al先进存力内涵R、右着大模型时代到来,训练数

42、据量与模型参数旭呈指数级增加,更复杂的Al业务流对Al基础设施的存力提出了更高要求。数据存力朝着大容量、高性能、安全可靠和绿色低碳的方向不断发展。业界认为Al先进存力是一种以“大容量、高I/O性能、高带宽性能”为基础,以“开放生态、高效架构、先进介质”为支持,具备“绿色低碳、安全可靠”等特征的存储能力,它能够实现存储系统的敏捷扩展,支持数据服务开放共享和数据业务高可用,保障系统可持续发展和数据隐私安全。Al先进存力可以作为人工智能计算中心存储能力建设的参考,其至少应该具备以下能力,一是支持大容量的敏捷扩展,包括PB级容量的敏捷扩展和大小I/O混合负载自适应能力;二是支持数据开放共享,满足Al业

43、务不同阶段数据管理、数据流动的需求,加强数据服务的开放性和互联互享能力;三是支持数据的高可用,满足更强的数据服务可用性要求,保障全生命周期业务;四是支持数据的隐私安全,满足数据资产和数据隐私的平衡要求,加强全生命周期隐私管理;五是支持存储的高效节能,通过提升数据处理效率以达成节能。Zl4.2Al先进存力关键技术I、1数据为中心,统一存力基座,融合多元异构以算力的新Al技术架构,已逐步成为人工智能计算中心的主流架构。多种异构算力紧密围绕在统一的数据底座,改变了过去“数据跟着算力跑”的算力烟囱工作模式,朝着“算力围着数据转”的新模式演进。作为数据载体,数据存储已成为构建Al大模型的关键基础设施之一

44、。为了构建先进的Al存力,需要从存储介质、架构、设计、安全和低碳等方面发力。图3-算力中心架构到存力中心架构异构融合智算.:算力围着数据转,计算资源计算资源计算资源文件存储时般存储HDFS存储统一存力基座昇%训练平台数据集处理平台NVIDIA训练平台IlI.先进介质:全面走向闪存,加速数据存取速度传统的机械硬盘已经无法满足快速访问和处理大规模数据的需求,而固态硬盘在读写性能上远超机械硬盘。单个固态硬盘的IOPS提升千倍,同时还具有低延迟和大吞吐量优势,能够更好地适应大模型对数据读写的高吞吐、低时延需求。数据读写性能的大幅提升将减少计算、网络等资源等待时间,加速大模型的研发与应用。此外,随着存储

45、颗粒类型和堆叠层数的突破,固态硬盘单价持续下降,使得全闪存存储建设成本变低,成为Al大模型的理想选择。Il2.先进架构:统一数据底座,承载Al全流程业务Al业务流主要包括数据获取、数据预处理、模型训练和推理应用,为了实现高效的数据共享和处理,需要采用多种不同的非结构化协议,如NFS协议、S3协议、HDFS协议和PoSlX高速访问接口等。传统解决方案是采用多种存储协议,由于需要在不同系统间来回拷贝数据,会严重影响数据处理效率,浪费存储空间,增加运维难度。因此,建设数据易共享、高性能、易扩展的统一数据底座来承载Al全流程业务,是最好的选择。这样可以提高数据处理效率,减少存储空间浪费,降低运维难度,

46、同时支持多种非结构化协议的使用,满足不同场景下的需求。图4多业务接口的统一存储逻辑图先进架构应具备无损多协议互通和数据全生命周期管理的能力。无损多协议互通,数据访问透明统一存储可以承载Al全流程业务,并且兼容Al全流程工具链所需的NAS.大数据、对象和并行客户端等协议。同时,该系统要保证各协议的语义无损,达到与原生协议一样的生态兼容性要求。此外,该系统还需要具备高效的数据流转能力,以便在不同阶段实现数据零拷贝和格式零转换,从而确保前一阶段的输出可以作为后一阶段的输入,并实现Al各阶段协同业务的无缝对接,达到零等待的效果。统一命名空间,数据全生命周期管理首先,Al存储系统需要同时具备高性能层和大容量层,以便满足不同应用场景的需求。其次,它应该对外呈现统一的

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号