
#头号创作者激励计划#
想象一下 , 2028年数据中心的电力消耗占美国总电力消耗的12% 。
AI数据中心的能源消耗速度大约是电网新增电量速度的四倍 , 这为发电方式、AI数据中心的建设地点以及更高效的系统、芯片和软件架构的根本性转变奠定了基础 。
这些数字在美国和中国尤为惊人 , 两国正在竞相加速建设人工智能数据中心 。 美国能源部委托进行的一份2024年报告显示 , 去年美国数据中心消耗了总发电量的约4.4% , 即约176太瓦时 。 到2028年 , 这一数字预计将增至325至580太瓦时 , 分别占美国总发电量的6.7%至12% 。
与此同时 , 预计中国明年的能源消耗量将达到400太瓦时 , 虽然这些数字看起来与美国相当 , 但国际能源署指出 , 中国公民的能源消耗远低于美国同行 。 在全球范围内 , 能源消耗量每年增长30% , 主要原因是人工智能 , 其中美国和中国约占这一增长的80% 。
西门子EDA硬件辅助验证副总裁兼总经理Jean-Marie Brunet表示:“电力不再是玩笑 。 ”“想象一下 , 2028年数据中心的电力消耗占美国总电力消耗的12% 。 这太疯狂了 。 我们必须重建整个电网 。 ”
其他人也同意 。 “发电将是一件大事 , ”英伟达首席执行官黄仁勋在最近与Cadence首席执行官Anirudh Devgan的讨论中指出 。 “原因在于电网将不足以支撑这个行业的发展 。 我们希望在美国建设这个行业 , 如果你想这样做 , 那么我们将看到大量的柴油发电机以及各种各样的东西 。 ”
距离和降压损耗与数据一样 , 电力传输也存在成本 。 根据美国能源信息管理局的数据 , 平均5%的电力在输配过程中损失 。 反直觉的是 , 运行数百英里的高压线路(约2%)的损耗低于运行较短距离的低压线路(约4%) 。 这些数字也受到电源的复合影响 , 因为不同的电源有不同的转换率 。
Saras Micro Devices首席商务官Eelco Bergman表示:“理想情况下 , 你应尽可能保持高电压 , 这意味着电流尽可能低 。 ”“损耗是电流的平方乘以电阻 。 所以你会一直损失功率 。 无论高压线是什么 , 你都在不断地降压 。 进入数据中心可能是400伏 , 然后转换为机架的48伏 , 最终降压到12伏到负载点 。 但在每一步中 , 你都希望在数据中心旁边发电以减少距离并尽可能保持高电压 , 并将电压带到靠近你的终端点 。 ”
这里的权衡是电压与电流 。 电流越高 , 热量越大 。 而且没有什么是100%高效的 , 所以当电力移动到离封装更近的地方时 , 会产生一些热量 。 反过来 , 这又会因为封装内部发生的一切而加剧 , 包括数据处理、数据在内存之间的来回移动以及互连中的电阻/电容 。 除此之外 , AI数据中心需要处理更多数据 , 因此这些工作负载需要更高的利用率 , 这使得散热量更难以跟上 。
Bergman说 , 因此 , 从高压线到低压线 , 再到PCB、封装 , 最后到单个芯片 , 每一步都会有功率损耗 。 “如何缩短距离?我能把多少电压尽可能地靠近?效率如何?我能散热吗?这些都是行业正在关注的问题 。 ”
芯片产业在这里扮演着重要角色 。 “由于现有的基础设施 , 我们有太多的中间电压水平 , 导致步骤过多 , ”弗劳恩霍夫IIS自适应系统工程部门高效电子部负责人Andy Heinig表示 。 “当然 , 我们可以在这里节省大量能源 。 我们还看到处理器和电源调节器需要协同工作 。 目前 , 电源调节器并不智能 。 它们只跟随处理器发出的电流 。 但是处理器知道它们在下一个周期要做什么 , 它们可以通知电源转换器即将发生巨大的跳跃或者某些东西被关闭 。 因此 , 在某些地方我们可以协同优化处理器和电压调节器 , 减少中间电压水平的数量将有所帮助 。 ”
移动数据另一个挑战是构建系统 , 使数据更靠近源头进行处理 。 这可以减少需要移动的数据量 。 但除此之外 , 数据必须传输的距离也需要缩短 。 这是3D-IC封装背后的关键驱动因素之一 。 与在SoC中布线不同 , 组件可以垂直战略性放置 , 以减少这些距离 。 这可以提高性能 , 并减少驱动信号所需的电量 。
Arteris产品管理与营销副总裁Andy Nightingale表示:“目前我们客户面临的最大挑战之一是设计中的布线长度 。 ”“多芯片是一个独立的挑战 , 但在每个单片芯片上 , 在进入多芯片之前 , 缩短布线长度对功耗至关重要 。 我们关注的一个方面是拥塞 。 我们的设计分析中也有热力图 , 用于查看拥塞情况 , 因为那是许多导线在交换机处汇合的关键点 。 我们也在平面图内工作 , 可视化物理设计 , 这样我们可以将交换机移出拥塞点 , 并且仍在平面图内工作 , 以减少某个区域的散热和功耗拥塞 。 ”
这也需要思维模式的转变 , 因为在AI数据中心中 , 电力仍然次于性能 。 但如果没有更多的电力可用 , 或者电价飙升 , 那么AI公司将别无选择 , 只能认真对待电力问题 。
“如今 , AI设计的重点仍然是性能 , 这意味着虽然功耗非常非常重要 , 但它仍然是次要的考量 , 首要目标是从这些芯片中获得最佳速度和性能 , ”Ansys产品营销总监Marc Swinnen表示 。 “功耗/性能之间总是有权衡 , 这是根本性的 。 所以如果你真的想降低功耗 , 你就必须降低性能 。 遵循摩尔定律会有帮助 , 可以降低功耗 。 另一个问题是 , 大部分功耗都花在了GPU与不同元件之间的通信上 , 甚至数据中心的背板也是如此 。 英伟达推出了共封装光网络 , 正是为了降低机架内和机架之间的通信功耗 。 ”
解决这些问题需要整个芯片行业的变革 。 “它始于芯片 , 如果芯片非常耗电 , 而你想构建一个LLM , 那么你就必须训练它 , ”西门子的Brunet说 。 “你通过添加多个功能和扩展来训练它 。 但是如果你把这些东西加起来 , 从一个非常耗电的单一元件开始 , 那么整个系统就会变得极其耗电 。 你还有一个数字孪生体 , 你也需要巨大的电力来计算这个数字孪生体 。 但这不仅仅是EDA行业的问题 。 这是整个世界的问题 。 ”
高效处理好消息是 , 有一些显而易见的唾手可得的成果 。 Movellus总裁兼首席执行官Mo Faisal表示:“仅仅因为缺乏可见性 , 就会额外消耗20%的电力 。 ”“例如 , 假设你设计了一个在2 GHz下功耗为500瓦的芯片 。 当你完成系统级测试并准备部署时 , 你会发现所有这些电力系统的构建目标都不同 。 所以现在 , 如果你想保持在500瓦以内 , 你需要将频率降低10%到20% 。 这基本上是一种限制 。 而芯片组只会让情况变得更糟 , 因为现在你面临同样的问题 , 但你要乘以你正在处理的芯片组数量 。 每个芯片组都可能有不同的工艺角 , 或者可能处于不同的工艺中 。 ”
这只是其中的一部分 。 “通过从芯片到系统再到数据中心安装更多可见性 , 还可以额外获得20%到30%的增益 , ”Faisal说 。 “这两者是复合的 , 而不是非此即彼 。 原因是芯片设计师关注风险 。 ‘嘿 , 我不想芯片出故障 。 所以他们会通过冗余来过度预留 。 但在部署时 , 当你设计数据中心时 , 你并不是为最大工作负载而设计的 。 你是为峰值工作负载而设计的 。 原因在于工作负载和软件的变化速度比芯片快得多 。 不可能用你在现场看到的所有工作负载组合来测试芯片 , 因为工作负载、模型和Transformer以及代理都在快速变化 。 所以你必须将其计入利润 。 数据中心容量比你在最大负载下看到的超额配置了30% 。 ”
理解半导体将如何使用对这个等式也至关重要 。 仅仅增加冗余和为最坏情况下的边缘情况进行保护性设计 , 会增加驱动信号通过额外电路所需的功率以及由于导线中的电阻/电容而需要散发的热量 。
摩尔定律也在这里发挥作用 。 虽然每个新工艺节点处理器性能的提升正在减弱 , 但功耗的提升预计将是巨大的——高达30% , 具体取决于工艺和晶圆厂 。 与任何新工艺一样 , 这些数字会因架构和工作负载而异 。
冷却经验法则是 , 数据中心要为电力支付两次费用 。 第一次是为服务器机架和存储供电 。 第二次是为它们降温 , 以防止过热 , 这正成为一个更大的问题 , 因为动态电流密度随着AI服务器利用率的提高而增加 。 训练大型(甚至小型)语言模型需要更多的处理能力 , 为生成式和代理式AI搜索供电也需要更多的处理能力 。 这反过来又会增加各种计算元素的利用率 , 使它们在更长时间内全速运行 。
Saras的Bergman说:“冷却的电力开销约为30%到40% , 如果只采用液冷而不使用冷水机组 , 可以将其减半 。 ”“但如果加上冷水机组 , 功耗又会上升 。 这里需要玩一个优化游戏 。 ”
这个等式中的转折点是水的可用性 。 在封闭系统中运行水需要冷却 。 使用当地供水则不需要 。 但根据环境与能源研究学会的数据 , 一个大型数据中心每天可消耗多达500万加仑的水 , 这大约是一个拥有1万到5万人口的城镇的用水量 。
两种替代方案是单个芯片的直接冷却和浸没式冷却 。 直接冷却可能涉及微流体通道 , 这是IBM在1980年代首次提出的想法 , 后来因难度太大而放弃 。 但随着热密度的增加 , 芯片制造商可能别无选择 , 只能采用某种微流体技术 。 尽管如此 , 实施这种方法会增加结构和制造方面的挑战 。 这个想法是很好理解的 , 因为水冷技术已经使用了半个多世纪 。 但在封装或芯片内部 , 更靠近晶体管的地方实施它 , 仍然是一个挑战 。
英特尔高级首席工程师兼公司热核心能力组负责人Rajiv Mongia解释说:“如果你正在研究一种冷却技术 , 就会涉及热传递效率 , 这通常从热阻角度来看待 , 以及从一般意义上的结到流体温度 。 ”“但如果你从热力学角度来看 , 它就不是结到流体入口温度 , 而是结到流体出口温度 。 基本上 , 你让流体离开封装或封装区域时的温度越高 , 下游的一切从热传递角度来看就越容易管理 。 这会影响你的冷却厂、冷水机组等等的总效率 。 ”
这是堆叠芯片的一个关键考虑因素 。 Mongia说:“当我们谈到3D-IC时 , 你可能需要在结构内部引入流体 , 比如芯片背面的硅微通道 。 ”“这是一种效益与复杂性之比 。 你可以用这种类型的板子放在背面来冷却 。 但是一旦3D堆栈中有足够多的体积发热——想象一个某种立方体——你就无法再通过硅片的一侧传导热量 。 你必须以某种方式从硅片内部抽取热量 。 归根结底 , 将需要某种奇特的机制 , 因为你在那个体积的硅片内产生了如此多的能量 , 而不是仅仅在一个表面上 。 ”
可持续性和成本这些对于芯片行业来说并非秘密 。 为了向前发展并以至少与今天相同的速度持续增长 , 需要解决两个相关问题——可持续性和成本 。 这些最终将决定AI数据中心的部署速度、它们可以处理的计算量 , 以及从传输角度和芯片/系统/封装设计角度所需的变化 。
西门子数字化工业软件首席执行官Mike Ellow表示:“可持续性始终是我们考虑的问题 , 因为几十年来 , 企业一直面临着更有效利用自然资源的压力 。 ”“这就是我们前进的方向 , 半导体作为支柱将帮助许多行业 。 如果你看看数据中心的功耗 , 我们现在的发展方向是不可持续的 。 对我们来说 , 挑战在于如何将四倍、五倍或六倍的计算能力 , 整合到现有数据中心的相同功耗配置文件中 。 ”
商业基础也融入了这幅图景 。 “归根结底 , 这是总拥有成本 , ”英特尔的Mongia说 。 “无论是你正在创建的大型语言模型还是你试图生成的一个推断 , 这都涉及资本成本和运营成本 。 散热既属于资本成本也属于运营成本 。 那么 , 平衡点是什么?投资回报率是什么?升级到液冷解决方案需要多少成本 , 因为液冷历来比风冷更昂贵 。 所有这些AI数据中心或AI解决方案主要采用液冷 。 为了构建它 , 你需要从你的封装中获得更多价值 , 这意味着更多的推断或在生成语言模型时获得更高的性能 , 从而随着时间的推移降低运营成本 。 ”
结论为了更好地理解这一点 , 请考虑内华达州胡佛大坝每年发电量约为4太瓦时;亚利桑那州帕洛弗迪核电站每年发电量为32太瓦时 , 而中国三峡大坝预计每年发电量为90 太瓦时 。 但考虑到目前的增长速度 , 2028 年至 2030 年间 , AI 数据中心的电力需求将增加350太瓦时 , 这几乎是所有这些发电设施总能耗的三倍 。
没有任何单一的改变能够缩小这一差距 。 半导体行业要想继续以目前的速度增长 , 就需要从电网向下 , 到芯片向上进行变革 。 即便如此 , 目前还不清楚这是否真的能弥合差距 , 或者是否只会让AI数据中心变得更大 。
*声明:本文系原作者创作 。 文章内容系其个人观点 , 我方转载仅为分享与讨论 , 不代表我方赞成或认同 , 如有异议 , 请联系后台 。
【AI数据中心耗电量,真不是开玩笑】想要获取半导体产业的前沿洞见、技术速递、趋势解析 , 关注我们!
推荐阅读
- 今年排名第一的国产系统,真的有点会玩
- 努比亚更加“激进”了,罕见真全面屏+顶配16GB+1TB,跌价1631元
- 设计也是卖点!真我GT8 Pro迎来爆料,竞争子系最强旗舰的节奏
- 干掉充电宝!10000mAh电池的手机,明年可能真的要量产了
- 开源之战,中国赢了第一回!Kimi K2登顶全球榜首,真不是偶然
- realme旗舰或迎来大调整,真我GT8Pro配置曝光,最快10月发布
- 真我放弃高利润!骁龙8至尊版+6500mAh+120倍变焦,低至2899元起
- 真我realme迎双消息:GT8设计有惊喜,Neo7系统升级全解析!
- 7月国补后,“销量冠军”的3款性能旗舰,16GB+512GB有“真香价”
- 荣耀终于妥协,16GB+512GB跳水1790元,可以捡漏的国补“真香机”
