华为数字能源中国区产品总监 杜坤:AI的业务模式是变化的,与传统数据中心的建设不一样,单机柜功率密度提升,服务器在时刻变化,半年以后可能摩尔定律会极其迅速地带来一个产品的迭代和更多的变化。
我们如何在这种变化的环境下去适配,或者响应业务快速建设的特征,来灵活应对一个多元算力。未来数据中心的建设一定包含AI、包含通算、包含存储一系列综合业务的集合。产品的模块化从供电设施到智能设施基础的模块化的搭建,一个最小的单元化积木式的快速响应是必需的。基于现在制冷形式的不确定,我们可能要在机房空间内实现液冷和风冷兼容的设计。对于我们来说,在没有决定服务器具体用哪种模式,业务承载以什么形式去做的时候,我们可能会用一定空间上的牺牲,来满足方案的灵活性。
如果按照端到端的概念去做一个数据中心基础设施的建设,我们从最开始资源的获取,现在AI对电力的消耗可能是通算消耗的5~10倍甚至更多,我们如何去拿到更多快速的能评、更多的土地和更多其他的资源,这部分是我们在前置规划建设时就需要考虑的问题。
在我们拿到相关设备的基础条件以及整体项目的报批报建完成之后,如何快速协同去做交付?全部完成只是做到了能源的底层,到第三层我们才会做到机柜交付和业务部署的上线。目前从整体策略来看我们还是建议在业务部署前期应该有一个清晰的规划,有弹性的方案架构的匹配,以及在业务部署的中后期,我们能够实现业务整柜的快速交付以及业务的快速调试和上线,这部分都需要根据现有的经验做合理的预估,控制相关的投资风险。因为AI现在投资的风险相对通算来说会更加庞大。
应对快速建设,我们通过标准化的架构,模块化的设备,基线化的协同,这是我们目前交付的为数不多的几十个项目中积累的一些经验。比如最开始我们要做到业主侧的联合规划设计落地,并且在后期基于L1和L2层相关的协同的交付实施,作出明确的方案。基于后期的运维,我们要综合评估包括业主的能力以及相关运营公司的能力,最终在运营上做一定的协同优化,这是我们四大阶段要做的事情,具体细化上还有更多方式去解决。
对于我们来说,设备安装层面也是基于这四大设施情况下做一个全流程的协同,能做到高质量完全的交付。在我们的TTM(即时通讯软件)上,通过有效的工具,我们能够节省30%以上的上线时间,以解决现有业务爆发和相关业务快速部署的要求。
目前AI的电力消耗是巨大的,所以对我们来说,有可能出现一个问题,原来辅助的配电用房的占地面积只有10%~15%,但是随着单机柜功率密度显著提高甚至部分液冷设备上线,辅助空间设施将极致压缩。这时集成化、高密化的方案也逐步成为主流。在主业务还没有明确之前,相对稳定的市电申请下来之后就开始提前部署,甚至提前做电力模块交付的相关产品的采购和整个设备的部署。这样有两大好处,第一个是通过智能化的管理,能够对供配电的可靠性做到极大提升。第二个是由于高密化部署的产品特点,能够让可部署机柜的出柜率得到显著提升。
供电架构的基础设施,也是业界很多先行者会考虑的事情。既然AI这么耗电,我为什么还要做2N的架构(一种数据中心供配电系统架构),能不能做两路市电,来避免甚至减缓这个特征带来的影响。这里就有一个很明确的观点,第一,我们要考虑基于现在最新的AI服务器的定价,如果按照训练服务器定价,8点节2.5P的算力服务器采购金额在150万甚至250万之间,相对于通算服务器,这是一个非常大的投资。L1这部分的占比,相对于总投资来说有一个下降。第二个要素,对服务器来说,所有的设备我们如何去影响它的可靠性,由于高温,由于供电不稳定,由于一系列其他的故障所带来的问题,因为现在的服务器很贵,服务器是一个很金贵的设备,所以对于我们来说传统的2N架构,供电质量的可靠性以及相关特性的保障也变得更加重要。
后续的供电是长时间的并行计算,出现了市电中断的闪断可能没有数据丢失的风险,但是对于算力或者电力的消耗指标也是相当恐怖的,所以对于我们来说,一旦能够有效地保证能源供应,避免因为电力的中断带来的服务器的并行重新计算,对我们来说在能源包括成本上的控制也是相对有效的措施。所以2N架构的UPS(不间断电源)的供配电方案,我们后续依然认为是AI供配电主流的配置。
负载的突增突减,基于算力的业务来说无法避免,而且负载的长期大算力不并行计算也是特点,架构上我们必须要关注一点,就是高压直流也好,UPS也好,具备短时间的过载特性,以满足现有的业务特征。现在有一个行之有效的办法,比如在市电容量一定的情况,作为数据中心,有一部分储能设备会用来作为数据中心能源供给的后备,在市电容量已经满负荷的情况下,可以通过储能联合供电来解决一部分负载突增突减的问题。如果采用常规的铅酸电池,由于它的放电次数和放电倍率的问题,无法做到有效的、长期的能源突增突减后备军的力量,所以锂电后续的常规化应用,后期是动力电池甚至中压侧储能电池的应用,也将逐步成为数据中心更换的主流,以解决我们提到的负载突增突减变化的特点。
冷却。AI最大的特点就是在冷却部分到底是风冷还是液冷。到目前为止,风冷的服务器依然是业界发货的主流,液冷服务器有各种各样的模式。所有服务器的厂商现在基于AI的场景都在不停地推出风冷和液冷兼具的服务器的解决方案,我们目前明确在单机柜40千瓦左右,40千瓦以上我们推荐用液冷或者风液融合的方案,40千瓦以下传统的风冷场景依然还是能够解决现在建设的诉求。
液冷和风冷这两个方案,未来谁都不会有绝对化的优势做完全的取代。风冷相对PUE(电源使用效率)或者整体的占地面积会有一定的提升,液冷的PUE会比风冷至少高0.1甚至0.15以上,相应的出柜率及其功率密度能够得到有效的提升,但从整体成本以及后期维护的简易度来看,它有一定的劣势。未来随着液冷服务器批量开放使用,以及由于发货量带来的成本下降,液冷后续将逐步在整体的服务器占比中有一定量的提升,后续有可能做到1:1甚至更高的比例。
有一点必须要明确,未来液冷将占一定的比例,但目前我们做整个数据中心的部署,对我们的要求就是要做到可以风也可以液,风液可调,风液融合,以适配更多的场景。
冷却问题,在我们的训练模型做了一定沉淀之后,模型最终的可用性、成熟度达到上线,大家会聚焦到推理模式,冷电融合以及连续制冷的需求是未来的刚需。按照我们自己的测试来看,一个3千瓦的机柜如果出现温度到40度的情况下只需要8分钟,后续20千瓦到40千瓦非连续制冷模式,可能1分钟之内机柜就会因为过热带来业务宕机。无论是以后AI层面的大中型数据中心还是中小型数据中心,连续制冷都是未来的刚需。目前来看在通算这个领域,单机柜功率密度没有提升,客户诉求和痛点并不明显。华为公司在相应的架构上也做了一定的优化,以保证这个功能的提升。
基于我们目前AI的模式,在训练模式、百柜千柜的大型IDC(互联网数据中心)的情况下,我们有融合化的解决方案,有电力模块,有间接蒸发冷却系统,大型设备还是以部件为主,在中小型的模型场景,有预制模块化和微模块的解决方案,以适配业务的快速部署和快速上线。未来基于AI层面相关的应用以及AI层面相关的业务,华为公司将持续关注,与我们客户、伙伴携手打造更多的数据中心类的AI管理,将更新的管理技术以及更好的模块化的辅助产品提供给客户,创造更多的价值,满足客户的需求。