恋恋不舍不舍 发表于 2024-12-24 08:07

AI 数据中心所需供电与散热系统

AI 数据中心所需供电与散热系统
AI 的第一波发展带来了 GPU/ASIC 等 IT 和 CT 设备的机遇。由于功率密度和散热要求快速提升,数据中心(IDC)改造虽周期靠后但确定性强,因为参与者明确,不像 GPU、ASIC、光模块铜缆和 CPO 存在技术路径分歧。美股中从维谛、西门子能源、ABB 到罗格朗的数据中心业务均受到巨大拉动,从事散热和供电的 VRT 今年迄今(YTD)的涨幅不比英伟达逊色,电力受益股 VST 和 CEG 表现更为强劲。
液冷和供电是未来数据中心变化最大的两个方面。功率密度从主流的每个机柜 10kW 迅速提升到 40kW,GB200 达到 130kW,下一代 Rubin 接近 800kW,增长了 80 倍。一个机柜尺寸仅约 2 米长、宽、高,却要容纳 800kW 电力功率,这对配电系统和散热系统构成极大挑战,800kW 功率相当于一个小商场的供电功率要集中于一个机柜内。近期,Meta 拆除了一个在建的数据中心,因其建设时依据 10kW 机柜标准设计配电和散热系统,如今已无法满足需求,故而拆除重建为 120kW 机柜供电标准。
随着电源功率密度提高,散热要求也相应提高。机柜功率密度快速上升,使得电源供应单元(PSU)功率迅速增加。以往多为 1300W、3300W 的 PSU,单价约 1 美元 / W,如今 GB200 采用顶级的 5.5kW PSU,且要求高效率,钛金 + 级别电源效率提高,发热减少,从 98% 提升到 99% 效率,发热可节省一半,从而降低散热要求。因功率提升过快,之前 10kW - 20kW 机柜风冷尚可维持,至多到 30kW,如 40kW 的谷歌机柜就一直采用液冷 TPU。对于 GB200 的 120kW 功率密度则必须采用液冷,先是冷板液冷,到 Rubin 会发展为浸没液冷,维谛正与英伟达联合研发该方案。
:海外每 1W 的 IT 容量所需机电和散热等 IDC 基建合计约 8 美元,其中电力系统 4 美元,散热 2.5 美元。海外专家估算 2025 年投资额为 1200 亿美元,约合 15GW;2026 年投资额 1600 亿美元,约对应 20GW。按照 B 系列单卡平均 1.2kW,ASIC(TPU TR2 等)平均 0.5kW 功率计算,大约 500 万张 B 卡与 800 万颗 ASIC 量,再考虑交换机、光模块等功耗,粗略估算与 15GW、20GW 数据基本相符。
总结:AI 数据中心因功率密度急剧上升,供电系统需适配更高功率 PSU 且追求高效率以降低散热压力,散热系统从风冷逐渐向液冷(冷板液冷到浸没液冷)转变。市场空间方面,海外有相应的投资金额与功率容量的估算,各部件功耗与整体投资规模在计算上具有一定的合理性与关联性,这也反映出 AI 数据中心供电与散热市场的巨大潜力与发展趋势。

我远方的家 发表于 2024-12-24 13:57

好好学习天天向上
页: [1]
查看完整版本: AI 数据中心所需供电与散热系统