算力中心冷板式液冷发展研究报告(2024年).docx

上传人:李司机 文档编号:7122371 上传时间:2024-06-15 格式:DOCX 页数:29 大小:194.42KB
返回 下载 相关 举报
算力中心冷板式液冷发展研究报告(2024年).docx_第1页
第1页 / 共29页
算力中心冷板式液冷发展研究报告(2024年).docx_第2页
第2页 / 共29页
算力中心冷板式液冷发展研究报告(2024年).docx_第3页
第3页 / 共29页
算力中心冷板式液冷发展研究报告(2024年).docx_第4页
第4页 / 共29页
算力中心冷板式液冷发展研究报告(2024年).docx_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《算力中心冷板式液冷发展研究报告(2024年).docx》由会员分享,可在线阅读,更多相关《算力中心冷板式液冷发展研究报告(2024年).docx(29页珍藏版)》请在三一办公上搜索。

1、目录一、算力中心冷板式液冷发展必然性1(一)政策背景:绿色发展备受关注,能耗要求日趋严格1(二)发展环境:单机功率密度提升,散热问题愈发显著2(三)标准走势:标准制定不断完善,行业发展持续规范4(四)产业现状:系统节能潜力显著,技术迭代创新发展5二、算力中心冷板式液冷技术分析6(一)冷板式液冷解决方案6(二)冷板式液冷关键技术要素10(三)冷板式液冷技术优势16三、算力中心冷板式液冷典型应用案例25(一)基于英特尔架构的超聚变冷板式液冷解决方案25(二)基于英特尔架构的京东云绿色算力中心高密度算力方案27四、趋势与展望29图目录图1冷板式液冷整体链路图7图2一次侧冷却水余热回收示意图11图3一

2、次侧冷冻水并联余热回收示意图11图4一次侧冷冻水串联余热回收示意图12图5二次侧并联余热回收示意图13图6冷却液分类图15图72019-2023年我国算力中心耗电量(亿千瓦时)20图8某大型冷板式液冷算力中心项目效果图26图9液冷服务器部署示意图28图10液冷服务器实际部署图29一、算力中心冷板式液冷发展必然性当前.,人工智能、大数据等新一代信息技术迎来创新发展,数字经济已成为当前主要经济形态,数字化转型持续驱动生产方式、生活方式和治理方式发生深刻变革。算力中心作为数据传输、产生、汇聚、融合的重要场所,是各个行业信息系统运行的物理载体,在“新基建等利好政策的加持下,产业始终保持着良好增长态势。

3、随着“东数西算”工程的纵深推进以及数字中国建设整体布局规划中数字中国建设目标的不断升级,我国算力中心产业发展步入新阶段,催生出新一轮算力中心建设高潮。尤其是“双碳”目标发布后,为进一步推动算力中心整体低碳化发展,促进算力中心机房的快速、高效散热,满足国家对算力中心绿色、节能等建设需求,液冷技术成为未来算力中心建设的重要选择。(一)政策背景:绿色发展备受关注,能耗要求日趋严格算力中心行业的高耗能和碳排放问题引起诸多关注。近年来,我国算力中心在实现规模化、集约化的同时,算力中心耗电量也在不断攀升,设备部署呈现出“高密度、高耗能、异构化”等发展特点。在“双碳”战略目标和全球能源治理改革的宏观形式下,

4、加快推动算力中心的绿色可持续发展势在必行。2021年10月,关于严格能效约束推动重点领域节能降碳的若干意见首次提到将数据中心行业纳入重点推进节能降碳领域。此外,为助力绿色低碳转型,国家和各地政府多次出台倡导节能减排的相关政策文件,在能耗总量限制的基础上推进绿色节能的算力中心建设。算力中心绿色低碳发展持续深化,主管部门对电能利用效率(PUE)提出明确要求。PUE是算力中心最常见的评价性能指标,也是行业评价算力中心绿色性能的主要衡量指标,PUE值越接近于1,则代表算力中心的绿色化程度越高。近年来,各级主管部门对算力中心PUE要求持续提升。2021年7月,工信部印发新型数据中心发展三年行动计划(20

5、21-2023年)明确提出,到2023年底,新建大型及以上数据中心PUE降到1.3以下。2022年1月,国家发改委同意启动建设全国一体化算力网络国家枢纽节点的系列复函中指出,国家算力东、西部枢纽节点数据中心PUE分别控制在1.25、1.2以下。2023年4月,财政部、生态环境部、工信部联合印发绿色数据中心政府采购需求标准(试行)中提出,自2023年6月起数据中心电能比不高于1.4,2025年起数据中心电能比不高于1.3。北京、上海、深圳等其他地方政府也相继对算力中心PUE提出了一定的限制要求。与此同时,国家持续鼓励算力中心在研发、测试和应用中,采用液冷相关技术,加大算力中心行业节能技术创新力度

6、,提升能源利用效率。(二)发展环境:单机功率密度提升,散热问题愈发显著我国算力中心规模保持高速增长,建设大型及以上算力中心成为主流模式。随着各行业数字化转型升级进度加快,全社会数据总量呈爆发式增长,人工智能、大数据、5G、IoT.AIGC等技术催生海量多样数据,极大的推动了数据存储、计算、传输、应用需求,促进我国算力中心建设规模高速增长。截至2023年,我国提供算力服务的在用机架数达到810万标准机架,算力规模达至J230EF1.OPS0大型以上算力中心机架数量占算力中心总机架规模比重逐年上涨。由此可见,高功耗、高密度的大型、超大型算力中心仍然作为未来建设的重点。高算力需求进一步推动算力中心单

7、机功率密度提升,大型算力中心的单机架功率密度已接近8kW,少数超大型算力中心的单机架功率密度已达20kW。当下,我国大型算力中心的建设加速及以ChatGPT为代表的新人工智能时代的到来,人工智能的应用需求日益凸显,处理大规模数据和复杂计算任务的高算力需求也不断增加。一方面,为了满足这些需求,算力中心需要提高单机架的计算能力,而通过增加处理器核数、内存容量和存储空间等方式提升单机功率密度是实现高算力需求的一种常用的策略。另一方面,受限于算力中心建设面积、环境保护规定和算力中心服务器承载能力等因素,提升算力中心单机柜功率密度成为有效疏解不断上涨的高算力需求的关键途径。算力中心正在面临散热的挑战,液

8、冷技术成为新型制冷解决方案。高功率的服务器和IT设备产生的热量不断增加,而算力中心的散热能力有限。因此,算力中心需要采用先进的散热技术,解决机柜间空气流动限制、散热设备容量不足、空间和布线限制等散热难来源:中国信息通信研究院题,以确保服务器和IT设备的正常运行。当前,液冷技术通过冷却液体替代传统空气散热,降低服务器等设备温度实现自然散热,提升散热效果,已逐步成为一种新型制冷解决方案。液冷技术主要分为冷板式液冷、浸没式液冷和喷淋式液冷技术等技术类型,其中冷板式液冷技术作为成熟度最高、应用最广泛的液冷散热方案,更适用于高性能计算、高密度的算力中心领域,有利于促进算力中心绿色低碳发展、降低算力中心P

9、UE。(三)标准走势:标准制定不断完善,行业发展持续规范政策引导算力中心液冷技术落地提速。近年来,发改委、工信部等全国一体化大数据中心协同创新体系算力枢纽实施方案、工信部新型数据中心发展三年行动计划(2021-2023年)、发改委贯彻落实碳达峰碳中和目标要求推动数据中心和5G等新型基础设施绿色高质量发展实施方案等相关政策明确提出推进算力中心液冷技术研发、采用液冷等节能技术模式。在国家、地方政府及行业政策引领下,算力中心应用液冷技术进入大规模的普及和建设阶段。算力中心冷板式液冷技术标准制定步入“新常态”,行业朝向规范化发展。算力中心液冷技术作为一项新的“革命”技术,当前我国针对液冷技术的研究仍处

10、于起步阶段,其液冷服务器的设计、运维、安防等方面的行业标准较为空缺,业界尚未形成统一的技术标准,增高了产业发展壁垒。得益于政策的支持与引导,液冷产业标准规范化迎来了快速发展,算力中心冷板式、浸没式、喷淋式液冷服务器系统技术、冷却液技术和测试方法等行业标准如雨后春笋般出台。特别是冷板式液冷技术标准制定逐步朝向常态化、规范化迈进。中国信息通信研究院云计算与大数据研究所依托ODCC(开放数据中心委员会)“冰河”项目组,与业界联合起草发布的数据中心冷板式液冷服务器系统技术要求和测试方法行业标准,规定了算力中心冷板式液冷服务器系统的服务器、CDU和其他相关技术要求和测试方法,并适用于服务器的设施、部署、

11、运维、测试等环节技术指导,为进一步推进冷板式液冷方案的可靠、高效和便捷夯实了坚实的基础。(四)产业现状:系统节能潜力显著,技术迭代创新发展国外在算力中心液冷技术和产品方面起步较早,目前冷板式液冷市场主要以欧美公司为主,其中美国公司占比超过60%,是冷板式液冷多种技术路线的主要发展区域。我国液冷技术起步稍晚于国外,但起步后发展迅速,冷板式液冷技术是我国最早采用的液冷方式,相较于其他模式液冷方案,冷板式液冷在可靠性、可维护性、技术成熟度方面更为突出,且更符合算力中心机房改造程度、适应性等特征,广受算力中心运营商的青睐,目前其相关产品在市场上占比较高。基于冷板式液冷在技术、生态、应用方面的发展基础,

12、众冷板式液冷生态伙伴持续加速节能技术迭代创新。在服务器方面,打造整机柜服务器解决方案,实现高效节能、快速部署、便捷运维等方面的全新升级;在散热材料方面,采用导热性能更佳的新一代散热材料,更高效地将热量从IT设备传导到冷却介质中;在控制系统方面,引入智能控制和自适应调节技术,实现对冷却系统的实时监测和调控,提升冷却系统的稳定性;在能源利用方面,采用能耗较低的冷却介质以及余热回收等方式,减少能源的消耗。积极推动算力中心不断实现能效优化和低碳转型。多家企业纷纷推出冷板式液冷相关技术和产品,并在算力中心行业内有了一定规模的应用案例。超聚变冷板式液冷服务器解决方案通过先进的集中供电、总线盲插和原生液冷技

13、术,实现节点、机柜、机房三级可靠性设计,PUE低至1.06,并获得全球首个TUV南德制冷PUE能效认证及全球首个TUV莱茵液冷防泄漏认证,已商用部署超过5万节点,成功应用于互联网、高校、政企、金融等领域,成为商用液冷新标杆。互联网厂商冷板液冷整机柜服务器在河北某算力中心大规模部署,其服务器通过模块化设计、一体化交付、高效运维部署等方式,提升IT设备散热效率。二、算力中心冷板式液冷技术分析(一)冷板式液冷解决方案1.冷板式液冷方案概述冷板式液冷技术是通过冷板2将芯片等发热元器件的热量间接传递给封闭在循环管路中的冷却液体,冷却液带走热量,并将其传递到一次侧回路,通过冷却系统进行冷却,最后将热量排出

14、系统。2通常是铜、铝等高导热金属构成的封闭腔体冷板式液冷技术利用冷却液作为热量传输的媒介,将热量由热区传递到远端后再进行冷却。在该技术中,冷却液与被冷却对象分离,不与电子器件进行直接接触,而是通过液冷板等高效热传导部件将被冷却对象的热量传递到冷却液中,因此冷板式液冷技术又称为间接液冷技术。冷却液的导热性能比空气更好,能够更快地吸收和转移热量,与传统的风冷技术相比,冷板式液冷具有更高的散热效率。此外,冷板式液冷还可以减少算力中心的噪音和灰尘污染,提高算力中心的整体环境品质。2.冷板式液冷系统设计冷板式液冷系统可以分为一次侧(室外)循环和二次侧循环(室内)两部分。其中,二次侧循环主要通过冷却液温度

15、的升降实现热量转移,而一次侧的热量转移主要是通过水温的升降实现。来源:中国信通院云计算与大数据研究所图1冷板式液冷整体链路图一次侧系统主要由室外散热单元、一次侧水泵、定压补水装置和管路等部件构成。一次侧冷源可采用机械制冷系统和自然冷却系统,以响应二次侧末端不同的温度需求。机械制冷系统包括风冷冷冻水系统和水冷冷冻水系统,可提供12C-18C的中温冷冻水;自然冷却是在室外气象条件允许的情况下,利用室外空气的冷量而不需机械制冷的冷却过程,自然冷却系统可采用开式冷却塔、闭式冷却塔和干冷器等设备实现,可提供30以上的冷却水。冷板式液冷一次侧冷源形式需结合二次侧末端水温需求和项目地室外环境情况确定。目前,

16、一次侧散热设备通常选择干冷器或者闭式冷却塔。二次侧系统主要由换热冷板、热交换单元和循环管路、冷源等部件构成。二次侧液体回路是指从冷量分配单元到机架,通过循环管路和IT设备连接,然后再通过循环管路返回冷量分配单元的设计。来自二次侧冷却回路的热量通过热交换单元的板式换热器传递到一次侧冷却回路,最终排放到大气中或被热回收再利用。换热冷板常作为电子设备的底座或顶板,通过空气、水或其他冷却介质在通道中的强迫对流,带走服务器中的耗散热。从而有效降低算力中心的PUE值。冷板材质一般由高导热系数的材料(如铜板)构成,冷板表面接近等温,可带走大量的集中热量,从而有效降低算力中心的PUE值。由于冷板在工作过程中不

17、直接接触发热元器件,因此避免了冷却介质对电子元器件的污染,提高了算力中心设施的使用寿命。冷量分配单元(CoolantDistributionUnit,CDU)可以看作室内机与室外机的连接点,由板式换热器、电动比例阀、二次侧循环泵、膨胀罐、安全阀、进出水管专用接头、控制器及其面板等部件组成。具有流量分配、压力控制、防凝露等作用。借助板式换热器,室内机与室外机发生间壁式换热,工质不做混合。高温冷却液携带的热量在冷量分配单元高效传递给室外机模块中的冷却水,再通过室外机部分的系统循环将热量最终释放到自然环境中。降温后的冷却液由内置循环泵驱动进入服务器,使冷却液循环往复,源源不断地带走服务器热量。此外,

18、冷量分配单元能够监视环境露点并调节供水给机架的温度,冷量分配单元一般将辅助水回路的供应温度提高到比房间露点温度高出至少2的水平,从而防止冷凝现象发生。分液单元是将冷却液分配到各个需要散热设备的部件,主要可分为竖直和水平两种形式。竖直分液单元将冷却液分流至水平分液单元,保证了不同高度的水平分液单元分得的液体流量相差较小。水平分液单元再将冷却液平均分配到末端液冷冷板上。分液单元通过竖直和水平分液单元将低温冷却液均匀的分配给每一个分液单元,从而防止不同路径的芯片散热冷板出现欠流或者过流情况,减少因节点温度升高而发生的隐患,提高系统的计算能力。循环管路是连接换热冷板、冷量分配单元和室外冷源的必要部件。

19、按连接方式不同,可分为直连式(异程式)和环路式(同程式)两种。循环管路的可靠性主要取决于连接处的材料,在实际连接中,管路、管件的材料均需考虑与冷却液的兼容性。(二)冷板式液冷关键技术要素1.余热回收技术算力中心余热回收技术将算力中心信息和通信设备运行过程中产生的大量余热进行回收,用于供暖及生活热水等需求。余热回收作为综合节能措施及清洁能源得到了业界的广泛关注。国家发改委印发的全国一体化大数据中心协同创新体系算力枢纽实施方案提出推动数据中心采用液冷、余热回收利用等节能技术模式。北京市经信局印发的北京市数据中心统筹发展实施方案(2021-2023年),上海市经信委、市发改委发布的关于加强本市互联网

20、数据中心统筹建设的指导意见以及江苏省工信厅颁布的江苏省新型数据中心统筹发展实施意见等纷纷提出加快包括液冷在内的绿色技术产品创新应用,鼓励数据中心采用余热回收利用措施。总体来看,不管是国家层面还是地方层面都开始重点关注对算力中心的余热利用。根据余热利用点位置和系统设置的不同,冷板式液冷系统余热回收系统的设计形式也不同,可分别在一次侧和二次侧回路进行余热回收。一次侧的余热回收包括冷却水余热回收、冷冻水并联余热回收、冷冻水串联余热回收。除了跟一次侧进行串并联之外,还可以设置二次侧并联余热回收。一次侧冷却水余热回收系统是在冷却水侧,一般在自然冷源换热器后,串联余热回收换热器,冷却塔中的低温水经过冷水机

21、组与冷冻水换热后升温,再通过热回收换热器将热量传递给热回收管网,热泵机组对回收的低品位热源进行提升,达到供热的温度要求。该方案回收的热量相对较少。来源:中国信通院云计算与大数据研究所图2一次侧冷却水余热回收示意图一次侧冷冻水并联余热回收系统在算力中心的冷冻水系统中设置余热回收系统,将余热回收换热器与自然冷却换热器并联,同时在热回收换热器侧增加循环水泵,用于控制冷却量和回收量。该方案中余热回收后的冷冻水和自然冷却后的冷冻水进行混合后,共同为机房提供冷冻水,对并联两侧的水力及温度控制要求较高。来源:中国信通院云计算与大数据研究所图3一次侧冷冻水并联余热回收示意图一次侧冷冻水串联余热回收系统也是在算

22、力中心的冷冻水系统中设置余热回收系统,将热回收换热器与自然冷源换热器在冷冻水侧进行串联,热回收换热器直接与冷冻水换热后,进入热泵机组进行提升利用。该系统容易受到室外温度波动影响,使得热回收换热器冷冻水出口温度产生波动,但是由于之后串联自然冷源换热器,可以进一步控制自然散热量,从而对其波动进行调节,确保最终的出水温度满足机房供冷的温度需求,控制系统相对简单。二次侧并联余热回收系统除了跟一次侧进行串并联之外,也在液冷的二次侧取热,CDU与热回收的换热器进行并联。运行热回收工况时开启热回收旁路,两条路由分别独立运行,水力平衡表现较好,工程改造难度较低。该方案直接与二次侧的冷却液进行热交换,减少了板换

23、的多次温降,相较其他方案换热效率更高,回收的热品位也更高。来源:中国信通院云计算与大数据研究所图5二次侧并联余热回收示意图2 .冷却液的选择冷板式液冷技术的冷却液在冷板管路中流动,不与主板和芯片等电子器件直接接触,在满足冷却性能的前提下,可以只考虑冷却液与循环管路和冷板之间的兼容性和可靠性。但在实际操作中需要定期检查冷却液,确保冷却工质的品质稳定可靠,以降低在长期工作环境下腐蚀、加速老化、渗透等风险。在冷却液的选择上,冷板式液冷系统二次侧冷却回路中常用的冷却液包括水基冷却液和非水基冷却液。水基冷却液具有良好的传热性能,分为纯水液和配方液。纯水液以纯水为溶剂,不添加任何其他材料或只依据防冻需求添

24、加一定比例的乙二醇或丙二醇防冻剂,纯水液通过维持超低电导率环境抑制浸润材料的腐蚀和微生物的滋生。配方液以纯水为溶剂,依据防冻需求添加一定比例防冻剂,并添加缓蚀剂、杀生剂等添加剂,配方液通过添加剂降低浸润材料的腐蚀风险和抑制细菌生长。由于这些添加剂会降低水的热传导性能,也存在因消耗而失去作用的问题,使用时需要定期取样监测冷却液品质。非水基冷却液主要分为碳氢及有机硅类以及碳氟化合物类,使用时需在浸润材料兼容性上进行严格审查和测试。碳氢及有机硅类冷却液常温下呈黏稠状,因此这一类被业内统称为“油类冷却液”,常见的油类冷却液可以分为天然矿物油、合成油、有机硅油等,普遍具有沸点高不易挥发、不腐蚀金属、环境

25、友好、毒性低等共性,且成本较低,但由于具有闪点,使用中有可燃助燃风险。油类冷却液因其粘度、粘性和易吸湿水解等问题一般不作为冷板式液冷的冷却液。碳氟类冷却液是将碳氢化合物中所含的一部分或全部氢换为氟而得到的一类有机化合物,根据碳氟化合物的组成成分和结构不同,可分为氯氟煌(CFC)、氢代氯氟燃(HCFC)、氢氟燃(HFC)、全氟碳化合物(PFC)氢氟酸(HFE)等,普遍具有良好的电绝缘性和综合传热性能,可以实现无闪点不可燃,且惰性较强,不易与其它物质反应,是良好的兼容材料。依据冷板式液冷系统中的冷却液在吸收或释放热量过程中是否产生气液相转化,分为单相冷板式液冷和两相冷板式液冷。单相冷板式液冷通过冷

26、却液在冷板内吸热,降低芯片温度,不允许出现汽化现象,水基冷却液凭借其具备的高沸点及良好的传热性能,成为单相冷板式液冷的理想冷却液。两相冷板式液冷通过冷却液在冷板内吸热,冷却液发生气液相转化,通常会选用较低沸点、适宜沸程的碳氟冷却液,以便于吸热汽化和散热液化循环。来源:中国信通院云计算与大数据研究所图6冷却液分类图3 .液冷化改造技术当前应用于人工智能、物联网、超级计算等计算密集型应用场景不断推动着IT硬件产品迭代升级,同时导致承载这些应用负载的服务器设备功耗和发热量也大幅增加,算力中心功率密度越来越高。传统的风冷散热方式已经无法满足算力中心及时性的散热需求,对算力中心进行液冷化改造,能够在原有

27、基础上实现更高效的散热以发挥满载性能,同时也有助于进一步提升单机架功率密度实现更高计算性能的输出。冷板式液冷技术能够有效降低算力中心PUE,相比于浸没式液冷,冷板式液冷对现有服务器芯片组件及附属部件改动量较小,可操作性更强,且对于当前的算力中心整体架构及后续维护影响不大,运维模式、机房承重与传统风冷场景基本一致,是目前成熟度较高、应用更为广泛的液冷散热方案。算力中心机柜液冷化改造的主要工作在于对原有机柜及服务器的冷板式改造,改造内容包括配电、布放管路、冷却液体流量分配单元CDU等,并同步配套调试漏液监测、堵塞等监控系统。整体机房液冷化改造的主要工作在于部署高密度液冷机柜、铺设室内外液冷管道、安

28、装冷却液体流量分配单元(CDU).新建或改造冷却塔以及部署用于部署交换机、路由器、防火墙、存储等风冷产品的风冷机柜。在此基础上,进行算力中心供电、消防、门禁、监控等基础算力中心环境改造,从而打造集液冷、风冷于一体的新形态的算力中心。但冷板式液冷改造也面临着诸多挑战,一是冷却液在流动过程中如果压力过大,会增加漏液风险,而且会对工作人员和设备造成潜在风险。二是算力中心液冷化改造涉及楼体、空间改造、系统改造等多个环节,改造周期长,产业链协同性较弱。三是要考虑一定的改造成本。(三)冷板式液冷技术优势1.高密度:高密度节点部署有效提升单机柜计算能力随着人工智能、大数据分析、虚拟化和高性能计算等技术的迅速

29、发展,算力中心对计算能力的要求越来越高。然而,受限于算力中心建筑面积和环保规定,算力中心有限的承载能力成为限制算力中心算力提升的主要问题。而提高单机柜功率密度成为调和这一矛盾的关键方法。2022年英特尔第四代服务器处理器单CPU功耗已突破350W,英伟达单GPU功耗突破700W,AI集群算力密度普遍达到50kW柜3。目前,自然风冷的算力中心单柜密度一般只支持8-IOkWo单纯依靠传统空气冷却技术已无法满足高密度计算节点的散热需求。因此,通过采用新的制冷技术来提高节点部署密度,以提升单机柜的计算能力变得尤为重要。冷板式液冷系统是一种有效提高机架功率密度的制冷技术。冷板式液冷技术通过将液冷板与服务

30、器节点紧密结合,将热量直接带走,实现高效散热,从而实现更高的功率密度。除了高效的散热性能外,冷板式液冷技术还具有更小的占地面积。由于液冷板与服务器节点的紧密结合,可以节省更多的空间,使得算力中心可以在有限的空间内部署更多的节点,从而进一步提高计算能力密度。冷板式液冷技术的应用使算力中心的计算能力得到了飞跃性的提升。例如,某算力中心引入了冷板式液冷系统,将其应用于高密度计算节点。在传统空气冷却技术下,每个机柜的功率密度仅为8-IOkW,而在采用冷板式液冷技术后,单机柜的功率密度大幅提升至33kW,可支持128颗CPU,单机柜最大支持66kW供电。采用这种高密度节点部署方案,使算力中心的计算能力提

31、升数倍,满足了高性能计算的需求。因此,在云计算中的计算资源虚拟化、大数据的存算分离的计算节点等计算密集型应用场景中,适合采用冷板式液冷技术。2 .高效能:热源侧液体冷却大幅提高服务器散热效率受制于空气传热特性,风冷技术的散热效率有限。由于空气的导热系数较低且容易受环境温度影响,风冷系统在高温环境下散热效果会受到明显影响。此外,风冷系统的散热能力还会受到风速和空气流通状况的限制。相对而言,液冷技术由于其较高的传热效率和更稳定的散热性能,在高功率密度和高温环境下表现更出色,因此越来越多的算力中心开始转向液冷散热技术,以满足日益增长的计算需求。冷板式液冷技术用冷却液替代空气成为换热介质,将冷却液直接

32、导向发热芯片模块,通过间接接触换热,将发热芯片产热导出,降低芯片模块的温度,提高其散热效率与计算性能。液体的比热容远高于气体,单位温度变化所需吸收/放出的热量远大于空气,使散热效率得到极大提升。以水为例,其每单位体积所传输的热量即散热效率较空气高3500倍,可有效解决日渐升高的高密度服务器的散热问题。此外,由液冷代替风冷,去除了风机的应用,降低了整个冷却系统的设备运行能耗。某典型节点采用CPU、内存冷板覆盖,液冷占比达80%,制冷PUE可达到小于等于1.15。因此,针对单芯片,液冷相比于风冷具有更高的散热能力。整体而言,液冷技术的应用使得算力中心的PUE值得到改善,而且能效水平得到了明显的提升

33、。在德国,IBM的SUPerMUC超算中心水冷系统具有3072个温水水冷计算节点,共计86016个计算内核。充分利用冷板式制冷特点,实现全年自然冷却,为业界的绿色HPC(High-performancecomputing)系统标杆。国内,中科院使用冷板式液冷服务器建设了“地球系统数值模拟装置原型系统”,不但有效降低了PUE的值,而且也大幅度降低了能源消耗,在一定程度上提升了计算性能。3 .高可靠:科学合理场景设计确保系统可靠稳定运行液冷系统内部的冷却液体是维持其正常运行的关键因素之一,专业的防漏设计和运行管理对于冷板式液冷系统的稳定性具有十分重要的意义。经过多年的发展和改进,冷板式液冷技术可靠

34、性已得到了很好的保障,防漏液设计、漏液全监控、故障管理等安全防护措施能够多角度、全方位防范故障风险,确保系统设备在安全稳定的环境下运行,保护环境及人员安全。冷板式液冷系统采用三级防漏液设计,通过节点、机柜和机房三级防漏液设计,确保零漏液事故发生。节点底座全密封,能够导流和及时疏导漏液,防止漏液影响其他节点;机柜采用快接头漏液喷射设计,配备自动控制制冷液的电磁阀;机房采用双环路设计,保证单个机柜漏液隔离后不会影响其他机柜的正常运行。冷板式液冷系统可以实现漏液全监控。整机柜具备三级漏液检测能力,实现漏液的精细化告警。节点使用水浸绳套管检测漏液,并通过漏液检测板上报BMC(BoardManageme

35、ntController)进行监控告警;机柜分流器装有光电式漏液传感器,分别在进水和出水处,通过RMU(RingMainUint)监控告警上报网管平台;风液换热器(液冷门)通过浮子监控冷硬水位,通过RMU监控告警上报网管平台。此外,通过Al硬盘故障预测技术、智能故障诊断技术、Al内存故障自愈技术,冷板式液冷系统具备故障预测、诊断和自愈能力,从救火式运维过渡到运筹帷幄。案例表明,通过以上技术,可提前7-30天预测风险硬盘,实现高达93%准确率的诊断率,实现预诊愈一体化,降低50%宕机率4。4 .低能耗:创新节能技术引导算力中心绿色低碳发展算力中心耗电量巨大,节能存在较大优化空间。算力中心耗电量随

36、算力中心数量的增多逐年攀升。2021年全国算力中心的耗电总量为1116亿千瓦时,2022年我国算力中心能耗总量1300亿千瓦时,同比增长16%,预计到2030年,能耗总量将达到约3800亿千瓦时。来源:中国信息通信研究院图72019-2023年我国算力中心耗电量(亿千瓦时)算力中心作为耗电大户,只有一小部分电能是供给IT负荷,其主要能耗来自于散热系统。通过冷板式液冷技术取代风扇、空调等不间断耗电的风冷方式,能够大大降低整个算力中心的能源消耗,极大降低PUE值。冷板式液冷技术通过利用冷量分配、精确控温、温水冷却及余热回收等一系列节能技术,显著降低算力中心的用电量,实现能源的高效利用。冷板式液冷技

37、术通过冷量分配单元将低温冷却液直接供给发热元器件,冷却液快速高效地吸收服务器产生的热量,有效缩短了传热路径,提高系统冷却效率。相较于传统的空气冷却系统,冷板式液冷系统减少了对空气进行大范围冷却的需求,能够实现对温度的精确控制从而大大降低算力中心的冷却能耗。此外,冷板式液冷技术采用温水冷却技术,出水温度可达55-60C,可实现全年自然冷却,并且,由于其回水温度可达55以上,热品质较高,可采用余热回收技术对热能进行再利用。温水液冷减少制冷系统的散热负荷,余热回收降低总功耗水平,二者协同可大幅降低算力中心的能源消耗。除制冷系统自身的能耗降低外,采用冷板式液冷散热有利于进一步降低芯片温度,芯片温度降低

38、带来更高的可靠性和更低的能耗,整机能耗预计可降低约5%。5 .易维护:一体化服务器机柜实现自动智能极简运维随着技术的发展和需求的增长,算力中心的规模越来越大,应用和系统环境也变得越来越复杂,需要更多的人力和技术支持来保障算力中心的稳定性和安全性。冷板式液冷一体化机柜凭借部署快速、运维方便等优势受到市场的广泛认可。通过一体化设计,液冷整机柜服务器的零线缆自动化运维、高效部件更换、快速整机柜交付、高效管路设计以及智能运维能力等特性,使得维护变得更便捷,部署更加快速,运维更高效,同时减少了维护成本和人工投入。这些优势使得液冷整机柜服务器成为算力中心可靠运行和未来发展的理想选择。液冷整机柜服务器通过液

39、冷水路、供电和交换网络三总线全盲插设计,实现零线缆自动化运维,大大简化了维护过程,降低了故障风险。液冷整机柜在生产线上进行安装、测试和调试后,可直接交付至客户机房,实现现场零安装,交付周期缩短至数天。二次侧管路采用模块化设计,工厂完成组件化预制,现场交付时无需进行焊接和冲洗,效率可50%,大大加快了部署和启用的速度。另外,液冷整机柜服务器具备机器人运维、服务器U位自动识别、第三方网管集成以及智能管理等特性,在简化运维流程的同时提升了运维效率。某算力中心液冷水路方案采用盲插快接头设计,服务器节点的冷板进出水与机柜manifold使用盲插快接头连接,供电方案采用+48VBUSbar设计,通过机柜B

40、USbar铜排为服务器节点供电,交换网络方案采用CabIe背板设计,服务器节点业务、管理网络接口均通过机柜Cable背板与交换机连接,节点内部采用CabIe连接器方式,实现水路、供电、交换网络三总线全盲插设计,支持即插即用,简化了维护流程。6 .易改造:灵活可操作性优势助力老旧机房改造升级面对当下日益收紧的能耗要求和政策,传统的算力中心面临着巨大的挑战。为了满足能源节约和环境保护的需求,算力中心运营商必须采取行之有效的措施。其中,风-液改造以其显著的经济性、高效的能源利用和出色的性能表现,成为引人瞩目的解决方案,为算力中心运营商提供了一条切实可行的路径,以适应当下的能耗要求和环保挑战。通过将部

41、分或全部服务器的散热方式从传统的风冷技术转变为高效的液冷技术,算力中心可以显著提高能源利用率,降低PUE值,从而减少总能耗。此举不仅有助于满足能耗要求,还能提高服务器的散热效率,提高计算能力,同时降低风扇噪音和空气流动所带来的问题,提升服务器的稳定性和可靠性。然而,风-液改造也需要克服一系列挑战,包括液冷系统设计和维护成本,适应现有基础设施改造,以及应对潜在液体泄漏等风险。因此,在实施风液改造时,算力中心运营商需要全面考虑技术、经济和安全等方面的因素,以确保算力中心的高效运行和可持续发展。目前算力中心所采用的液冷技术主要分为冷板式液冷、喷淋式液冷和浸没式液冷三种。喷淋式液冷将冷却介质以喷淋的形

42、式释放到服务器的热源上,通过蒸发吸收热量来实现散热。浸没式液冷是将整个服务器或服务器组件完全浸入液冷剂中,通过直接接触来散热。喷淋式和浸没式液冷技术相较于冷板式液冷,在极高功率密度的情况下可以实现更高的散热效率。然而,喷淋式和浸没式液冷技术在实施和维护上相对复杂,涉及更多的安全和环境考虑,同时也需要更多的成本投入。相较于直接接触式液冷技术,冷板式液冷的优势在于更好的材料兼容性及简便的改装方式。首先,冷板式液冷技术对发热器件具有更好的材料兼容性。在冷板式液冷系统中,冷却液只在冷板管路中流动,不直接接触服务器主板和发热器件,因此不需要对主板和发热器件进行特殊的材料设计。在选择冷却液时,只需考虑冷却

43、液与循环管路和冷板之间的兼容性。这使得冷板式液冷技术更加灵活适用于各类服务器设备,无需进行大规模的硬件改动。例如,美国服务器制造商SUPermiCro就采用冷板式液冷技术进行改造,在其服务器上实现了高效的散热和能耗降低。相比之下,浸没式液冷技术要求服务器主板和发热器件必须能够在液冷剂中完全浸泡,对材料的选择更为严苛,并且需要特殊设计,导致了制造成本的增加和技术复杂性的提升。其次,冷板式液冷技术改装简便。该技术不改变服务器主板的原有形态,而是在保留现有主板的基础上进行改装。这种改装方式不仅拆卸简单、安装方便,而且在技术、产业以及规模化生产上具有更好的可行性。由于其不需要对主板进行重大修改或替换,

44、不仅使得冷板式液冷技术的安装和维护更加简单和方便,同时也降低了技术和产业规模化生产的难度。相比之下,浸没式液冷技术通常需要设计专门的液冷主板,以适应其完全浸泡的特性,这无疑增加了技术和制造成本。依托以上优势,冷板式液冷技术在实际应用中更为便捷和经济,成为老旧机房风-液改造升级的首选技术。以阿里巴巴为例,该集团在“杭州五区”的老旧机房改造升级项目中采用了冷板式液冷技术对旧有的空气冷却系统进行改造,以适应新的高密度计算需求。通过冷板式液冷技术的灵活可操作性,阿里巴巴实现了算力中心的高效运行。改造后的算力中心能够实现更高的计算能力,计算节点密度提升了约5倍,单机柜的计算能力从过去的IOkW提升至了5

45、0kW。同时.,算力中心的能耗降低了30%,能源利用效率大幅提高。三、算力中心冷板式液冷典型应用案例超聚变、京东、英特尔等企业纷纷致力于推动绿色算力中心的发展,积极构建快速、高效、节能的冷板式液冷商用方案,并落地了一批算力中心应用具体案例。(一)基于英特尔架构的超聚变冷板式液冷解决方案超聚变数字技术有限公司经过10年可靠性积累,170余项可靠性测试,已经成功在国内外交付商用液冷服务器50000+台,商用案例涉及互联网、高校、政企、超算、金融等领域。打造整创新架构整机柜液冷服务器。基于第三代英特尔至强可扩展处理器打造创新架构整机柜液冷服务器,整机柜使用机柜“上走电下走水”架构,原生液冷设计实现天

46、然可靠性保障,支持100%液冷散热,PUE达1.10以下,优于国家对大型算力中心枢纽节点要求;整机柜支持高密部署,可支持144个CPU,同时机房免冷机部署,空间利用率再提升20%;业界首创液、网、电三总线盲插,机柜内。线缆部署,支持机房向机器人运维演进,配套超聚变智能运维管理软件,业务上线效率提升10倍以上。智能运维软件配合英特尔智慧节能方案,实现芯片级节能减碳。英特尔智慧节能方案依托英特尔人工智能方案和服务器平台技术,采用智能遥测(InteHigentTeIemetry)、基于ChronoS的时序数据分析,以及英特尔至强可扩展平台的能效控制、基于容器运行时接口的资源管理器(CRl-RM)动态

47、资源管理策略等,实现对英特尔至强可扩展处理器的各种运行指标的智能遥测,并在提供可视化监视支持的同时,将遥测数据输入到闭环控制逻辑之中,在操作系统层面、处理器能效级别、处理器能级状态进行细粒度控制,进而针对不同场景实现能效优化。第四代英特尔至强可扩展处理器采用CPU内置加速器的创新方式,大幅推动算力与能效双维度增长,具备可持续发展特性,内置的能耗优化模式(OPtimiZedPowerMode),可以很方便地在BIOS(BasicInputOutputSystem)设置中打开,让处理器功耗最高可节省20%,对性能的影响则小于5%。通过架构创新和整机工程技术创新打造最佳的商用液冷方案。超聚变致力为客

48、户提供绿色节能算力,为东数西算主要枢纽节点提供优质方案。以国内某液冷算力中心工程为例,该项目实际布署超聚变液冷节点超万个,一举成为全球最大液冷集群。经统计,该项目TCO(TotalCostofOwnership)降低30%,交付效率提升100%,经济性提升较为明显。来源:中国信通院云计算与大数据研究所图8某大型冷板式液冷算力中心项目效果图(二)基于英特尔架构的京东云绿色算力中心高密度算力方案业务的持续发展使京东对计算、存储、网络等基础资源的需求出现了爆发式增长,更面临降低能耗的挑战。为改善机架式服务器的空间利用率与功率密度,解决总线电压设计损耗较高、机柜空间浪费、传统冷却方式效率不足、服务器算力能效低等问题,京东云积极构建高密度算力方案,加速绿色算力中心建设。其高密度服务器的典型模块由标准电源、前I/O模组、液冷模组、内置PCle模组、风扇模组、电源转换模组、后I/O模组等构成。以54V总线电压提供更高电源效率。京东云绿色算力中心高密度算力方案采用了天枢机架式机柜,中央电源选用54V高功率支持模式,能够在更高的机架功率下提供更好的整体机架效率。以冷板液冷整体解决方案实现液冷计算节点的循环冷却。京东云还部署了从算力中心级到微处理器级的冷板液冷整体解决方案,在冷却液分配单元(CDU

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号