华为超节点：用「一台机器」的逻辑，驱动AI万卡集群_Flyme

文章图片

文章图片

文章图片

机器之心报道
机器之心编辑部
超节点架构重新定义大规模有效算力新范式。
AI 算力正在迎来全新形态，革新的原点来自国内。
在算力需求呈指数级增长的今天， AI 基础设施的规模竞赛似乎陷入了一个怪圈：随着集群规模扩大，传统通过「服务器堆叠和以太网联接」的模式，会因服务器间带宽不足、时延大等问题，导致有效算力利用率反而越低，训练中断也愈发频繁。
在昨天的华为全联接大会 2025 上，华为给出了自己的解法：基于自研的灵衢（UnifiedBus）互联协议，创新了超节点架构。
这并非又一个单纯的硬件升级，而是华为在计算系统架构层的一次深度重构。
要实现超节点架构，最难、也最关键的是突破互联瓶颈。
在传统服务器架构中，我们可以将其理解为一个由无数独立「计算岛屿」（服务器）组成的群岛，岛屿之间依靠传统的网络「航线」（如以太网 / IB 网络）进行数据交换。
在集群规模较小时，这种模式尚能应付；但当成千上万个计算单元需要为同一个庞大的训练任务进行高频、海量的数据同步时，这些「航线」就会迅速拥堵。
其结果是，大量的计算单元不是在计算，而是在「等待」数据。节点间的通信延迟和带宽限制成为了整个集群的木桶短板，导致「1+12」的规模效应递减，算力利用率随规模扩大而下降。在万亿模型训练中，约有 40% 的时间，计算在空等通信。
更致命的是，任何一个节点的故障都可能引发连锁反应，导致动辄耗时数周的训练任务中断，造成巨大的资源浪费。可以说，互联架构的能力，直接决定了 AI 集群规模的天花板。
华为希望以超节点创新的形式，改变传统集群「堆叠」模式，解决当前大规模 AI 计算最核心的痛点：通信墙。
互联技术的研发难度极大，正如业界关注的 NVL144 的上市时间已推迟到明年下半年，而华为的独特之处在于，基于灵衢互联，已经成功实现了超大规模的超节点部署，验证了该技术路线的成熟与领先。

从「堆叠」到「融合」，深度互联推动 AI Scaling Up
「超节点」架构的核心思想，在于「融合」。超节点在物理上由多台机器组成，但逻辑和使用上可以看做是单一设备。它通过大带宽、低时延的互联网络，将计算单元、存储单元等组件平等互联，并统一通信协议与内存编址，实现全局资源池化，从根本上解决了传统集群的通信墙问题。

基于这样的架构，能够将通信时延降低到百纳秒级，大幅提升集群利用率，降低通信成本。其最终目标是让有效算力随集群规模实现真正的线性拓展，并大幅提升系统的长效可靠性。
华为董事、ICT BG CEO 杨超斌在昨天的华为全联接大会上表示：「基于灵衢互联协议，华为创新了超节点架构，可将多台物理机器深度互联，实现逻辑层面像一台机器一样学习、思考与推理，重新定义了高效、稳定、可扩展的大规模有效算力新范式。」

华为董事、ICT BG CEO 杨超斌在华为全联接大会上。
覆盖全场景的创新产品组合
随着 AI 基础建设的快速演进，超节点或许会很快成为 AI 基础设施的新常态。
而超节点不仅仅应用于 AI 数据中心，更需要普惠千行万业的 AI 计算需求。为此，基于超节点架构，华为打造出满足大型数据中心、企业级数据中心到小型工作站等全场景算力需求的创新产品。
旗舰标杆：Atlas 950 SuperPoD本次大会，华为发布 Atlas 950 SuperPoD 和 Atlas 960 SuperPoD 超节点，分别支持 8192 及 15488 张昇腾卡，在卡规模、总算力、内存容量、互联带宽等关键指标上全面领先。

这是给顶级玩家（如云服务商、国家级智算中心）准备的「旗舰武器」，其采用的全液冷和零线缆电互联的正交架构设计，结合液冷接头浮动盲插等技术，不仅解决了超高密度下的散热和互联难题，更通过系统性创新解决了跨柜长距离、高可靠部署这一业界难题，更极大地提升了系统的长期运行可靠性和机房部署适应性。
其 FP8 算力达到 8E FLOPS ，总互联带宽高达 16PB/s ，超过今天全球互联网峰值带宽的 10 倍有余。
其创新的「UB-Mesh」递归直连拓扑，最大可支持 8192 卡无收敛全互联，这意味着在理论上，集群内的任意两个 NPU 都能实现最高效的通信，为万亿参数级别模型的训练扫清了障碍。
基于超节点，华为同时发布了全球最强超节点集群 Atlas 950 SuperCluster 和 Atlas 960 SuperCluster ，算力规模分别为超过 50 万卡和百万卡，成为了全球最强算力集群之一。
华为副董事长、轮值董事长徐直军在大会演讲中强调，基于中国可获得的芯片制造工艺，华为努力打造「超节点+集群」算力解决方案，可以满足持续增长的算力需求。
企业普惠：Atlas 850这或许是本次发布中最具市场穿透力的产品。作为业界首个企业级风冷 AI 超节点服务器，它首次将超节点架构带入企业级风冷数据中心，极大地降低了企业部署超节点架构的门槛。
这意味着，大多数企业无需对现有数据中心进行复杂的液冷改造，在大多数单柜供电能力为 20 千瓦以内的标准风冷机房内，也能构建起最大 1024 卡的超节点集群，这对于推动大模型在更广泛行业的「后训练」和多场景推理应用意义重大。

杨超斌发布 Atlas 850 企业级风冷服务器。
基础计算单元：Atlas 350 标卡基于最新的昇腾 950PR 芯片，这款标卡不仅自身性能大幅提升（如推荐推理场景性能提升 2.5 倍），更关键的是，它通过灵衢端口实现了多卡互联与资源池化。
这意味着，即便是单个服务器内的多张标卡，也能「攒」出一个小型的超节点，让更大参数的模型和更低时延的应用得以在更小的单位上运行。同时，灵活扩展、可拆可合的特性，也让用户能够根据自己的需求，灵活组装。
通用计算场景：TaiShan 950 SuperPoD这是华为超节点战略的延伸，也是一个值得关注的信号，华为将这一架构首次应用于通用计算领域，推出了业界首款通算超节点。
其百纳秒级超低时延和内存池化能力，将直接利好数据库、虚拟化和大数据等对延迟极其敏感的场景，为传统 IT 架构的性能提升开辟了新的想象空间。
值得一提的是，基于 TaiShan 950 超节点打造的 GaussDB 多写架构，无需改造即可平滑替代大型机、小型机上的传统数据库，为传统 IT 架构的性能提升开辟了新的想象空间。
以「开源开放」构建护城河
在发布一系列「肌肉感」十足的硬件产品之余，华为反复强调的是「硬件开放、软件开源」的生态战略。

在 AI 时代，单一厂商的技术再强，也无法包揽所有场景的应用创新。真正的壁垒，在于生态的繁荣度。
硬件开放：华为将 NPU 模组、刀片、主板等基础硬件向伙伴开放，鼓励产业界进行二次开发，共同丰富基于灵衢协议的产品形态，为不同场景提供适配的算力底座。
软件开源：将昇腾 CANN 和操作系统灵衢组件全面开源，代码将陆续合入 openEuler 等开源社区，并确保对 PyTorch、vLLM 等主流框架的优先支持。通过强化开源运作，华为致力于使能广大开发者和合作伙伴，让超节点走向普惠和协同创新，共建繁荣的 AI 生态。
昨天的大会上，华为除了发布全球最强超节点，公布全新昇腾 950 芯片架构之外，还介绍了自研算力体系的落地情况：基于灵衢的 Atlas 900 A3 超节点当前已经累计部署了 300 多套，服务 20 余个客户，行业覆盖互联网、金融、运营商、电力、制造等。新一代超节点已在客户真实场景中兑现了价值。
【华为超节点：用「一台机器」的逻辑，驱动AI万卡集群】算力的未来，在于打破边界。「超节点」架构的核心使命，就是构建一个统一、可扩展的算力基石，旨在将一致的、高性能的计算体验，无缝贯穿到每一个数据中心、企业和工作站。

华为超节点：用「一台机器」的逻辑，驱动AI万卡集群

推荐阅读

视频下载到u盘的操作方法

做ppt教程word2016 如何快速制作好看的PPT

一楼防护网有什么法律规定

按体型大小犬分为几种类型

去除各种异味小妙招

东风风光370怎么样？

布纹砖真的很难清洁吗布纹砖的优缺点有哪些

养土拨鼠要注意哪些

酒精灯上用的碗叫什么碗酒精灯上用的碗叫什么

皇马连续几年卫冕欧冠16强

4K屏幕TNT体验

宁波飞机到洛阳多少公里数，宁波到贵阳的飞机票要多少钱几个小时可以到

摩擦力总是与运动方向相反吗

抖音抖币怎么充值

刘强东为什么会找奶茶妹妹,为什么刘强东能追到奶茶妹妹

如何写论文提纲格式,论文如何写提纲