数据中心狂飙时代的三道坎
发布时间:2026-02-20 09:29:50| 浏览次数:

Monroe 说得很直白,电力是当前最要命的近期约束。云计算和 AI 推理这些业务必须离用户近,响应速度才快,所以都扎堆在大城市周边。问题是这些地方本来用电就紧张,数据中心一来,电网直接吃不消。
但AI 训练就没这个顾虑。训练模型对地理位置没啥要求,哪儿有电往哪儿搬,所以现在很多训练任务都在往偏远地区迁移。这种分化其实挺明显的:推理要速度,训练要电量,各取所需。
第一个是“灵活负载管理”,说白了就是在用电高峰期让数据中心主动降低负荷。杜克大学做过一个研究,如果数据中心愿意接受每年 0.25% 的停机时间(也就是 99.75% 的正常运行),美国电网能多承载 76 GW 的新负载;如果能接受 0.5% 的停机(99.5% 正常运行),这个数字能到 98 GW。
听起来挺美好,但 Monroe 泼了冷水。他说这事儿有两个大障碍:一是行业天生就怕风险,IT 设备频繁开关机谁都不敢轻易尝试;二是光靠市场激励还不够,可能需要监管层面强推才行。所以这个方案理论上能解锁 100 GW 的容量,实际落地还得看。
第二个方案更直接也更贵——Behind-the-Meter(BTM),也就是自己建发电站。现在已经有一小部分数据中心在这么干了,主要用天然气发电机。
Monroe 说这个方式的成本是电网供电的 5 到 20 倍,听着吓人,但对于那些大型 AI 数据中心来说,考虑到利润空间,这笔账还是算得过来的。
像马斯克的 xAI 实验室通过租用卡车安装的燃气涡轮机和引擎,在短短 4 个月内建成了一个 10 万块 GPU 的集群,部署了超过 500MW 的现场电力,OpenAI和 Oracle 已在德克萨斯州订购了 2.3GW 的现场天然气发电厂 。
第二个挑战是水。传统数据中心的冷却系统特别耗水,用的是蒸发冷却技术。但现在情况变了,社区不干了,监管收紧了,芯片技术也在进步,整个行业开始往节水方向转型。
Monroe 说,现在的趋势是从高耗水的蒸发冷却转向闭环和无水冷却系统,尤其是那些大型云服务商,转得特别快。听起来是好事,但有个代价:能耗大幅上升。
具体来说,传统蒸发冷却系统的PUE(电力使用效率)能做到 1.08,意味着只有 8% 的能源用在了非计算环节。但换成闭环无水系统之后,PUE 会飙到 1.35-1.40,也就是说能源开销从 8% 跳到了 35%-40%。这个差距可不小。
当然技术也在进步。Monroe 提到了芯片级液冷和高温水冷这些新技术,能在更多地理位置实现高效散热。但他也指出,托管型数据中心(co-location)很难跟进这些新技术,因为它们客户群体太杂,必须在建设早期就确定冷却架构,没法灵活调整,所以还是会坚持用传统的冷水机组。
尽管无水冷却的份额在上升,Monroe 判断冷水机组的需求在未来十年还是会大幅增长,原因很简单——数据中心整体规模在爆发式增长,即便占比下降,绝对量还是在涨。
巧的是,SemiAnalysis上个月也出了一篇关于数据中心用水的分析,SA认为数据中心用水的争议被过度夸大,这些讨论往往忽略了冷却架构、能源来源、地理位置和当地水资源稀缺性等关键变量。Colossus 2作为全球顶级数据中心,Colossus 2 的水消耗仅相当于 2.5 家 In-N-Out 门店,而餐饮行业整体水消耗规模远大于数据中心。有兴趣的可以看下SemiAnalysis的那篇原文。
Monroe 认为,数据中心不是普通的工业建筑,它需要极其专业的电气和机械系统,这意味着电工和管道工是整个建设过程中的关键角色。而现在的问题是,这些技术工人严重短缺。
Monroe 认为,技术工人短缺会成为继电力之后的下一个主要约束。为了应对这个问题,行业组织正在和技术院校合作开发培训项目,甚至把触角伸到了中学,试图让更多年轻人把技术工种当成有吸引力的职业选择。
高盛也给出了一个估算:到 2030 年,美国需要净增超过 50 万名工人,覆盖制造、建设、运维以及输配电等各个环节,才能满足数据中心扩张带来的电力部署需求。
星球最近对每天的早报(周内早上9点前更新)做了一个很大的更新,之前的早报主要以头一天海外媒体的新闻总结为主,内容都不是很长。
最近我们对早报做了很大的升级,除了Physical AI、机器人、AI算力、AI电力、光、PCB、液冷、AI应用,内容比较全,都是最新的分析师观点和新闻,欢迎大家进星球查看。