中国AI高速路,华为给出开源开放方案

中国AI高速路,华为给出开源开放方案

文章图片

中国AI高速路,华为给出开源开放方案

文章图片

中国AI高速路,华为给出开源开放方案

文章图片

中国AI高速路,华为给出开源开放方案

henry 发自 凹非寺
量子位 | 公众号 QbitAI
上周 , 华为全联接大会集中展示了华为最新最强的一系列创新 。
今年最受关注的自然是超节点技术带来的算力风暴和突破 。 但超节点带来的算力突破还不是全部 , 超节点架构带动的开源开放 , 还会把这场风暴推得更深更远 。
更加直观类比来说 , 这是一场华为发起的“AI高速路”修路尝试 , 开放硬件相当于开放了修路材料 , 开源软件和灵衢组件相当于开源了修路方法和标准协议 。
华为用开源开放 , 给出了中国AI高速公路枢纽建设的方案——
一个惠及各行业全场景 , 技术红利覆盖大中小各类玩家的生态 。
大杀器超节点 , 华为决定开源开放在华为全联接大会上 , 华为重磅发布创新的超节点架构 , 推出覆盖数据中心到工作站的全场景超节点新品 。
Atlas 950 SuperPoD是面向超大型AI计算任务的最佳选择 , 从基础器件、协议算法到光电技术 , 实现了系统级的创新突破 。
其通过正交架构 , 让Atlas 950实现零线缆电互联 , 采用液冷接头浮动盲插设计做到零漏液 , 独创的材料和工艺让光模块液冷可靠性提升一倍 。
此外 , Atlas 950 SuperPoD创新的UB-Mesh递归直连拓扑网络架构 , 支持单板内、单板间和机架间的NPU全互联 , 以64卡为步长按需扩展 , 最大可实现8192卡无收敛全互联 。
即便与英伟达产品对比 , Atlas 950超节点也优势显著 。
相比计划明年下半年上市的NVL144 , 其规模、总算力、内存容量、互联带宽分别达到后者的56.8倍、6.7倍、15倍(1152TB)、62倍(16.3PB/s) 。
即便对标英伟达2027年计划上市的NVL576 , 依旧遥遥领先 。

Atlas 850是业界首个企业级风冷AI超节点服务器 , 内部搭载8张昇腾NPU , 有效满足企业模型后训练、多场景推理等需求 。
Atlas 850支持多柜灵活部署 , 最大可形成128台1024卡的超节点集群 , 是目前业内唯一可在风冷机房实现超节点架构的算力集群 , 企业无需改造现有风冷机房即可部署算力集群 。

Atlas 350标卡采用最新的昇腾950PR芯片 , 向量算力提升2倍 , 支持更细粒度的Cacheline访问 , 在推荐推理场景可实现2.5倍性能提升 , 且单卡即可运行 。
Atlas 350支持灵衢端口互联 , 实现算力、内存等资源池化 , 让更大参数模型、更低时延应用可以在标卡上实现 。

TaiShan 950 SuperPoD是华为推出的业界首款通算超节点 , 具备百纳秒级超低时延、Tb级超大带宽和内存池化能力 , 能大幅提升数据库、虚机热迁移和大数据场景等业务性能 , 为通算性能提升开辟全新路径 。
这一系列的超节点新品能实现从数据中心、企业部署、小型工作站的全场景覆盖 , 从而在硬件层面协同用户实现个性化部署 , 推动AI高速公路互通互联 。
而就在超节点发布的同时 , 华为选择了全面的开放和开源 。
首先是硬件层面的开放 。
华为宣布全面开放超节点技术 , 与产业界共享技术红利 , 共同推动超节点技术走向普惠与协同创新 。
一方面 , 开放灵衢协议和超节点参考架构 , 允许产业界基于技术规范自研相关产品或部件 。
另一方面 , 全面开放超节点基础硬件 , 包括NPU模组、风冷刀片、液冷刀片、AI标卡、CPU主板和级联卡等不同形态的硬件 , 方便客户和伙伴进行增量开发 , 设计基于灵衢的各种产品 。
其次是软件层面的开源 。
超节点的运行离不开操作系统的深度支持 , 操作系统灵衢组件也将全部开源 , 组件代码将陆续合入openEuler等多个上游操作系统开源社区 。
用户可以根据实际需求 , 将部分或全部源代码集成到现有操作系统中 , 自行迭代维护版本 , 也可以将整个组件直接合入现有操作系统 , 未来演进与开源社区版本同步 。
开源是驱动技术创新和产业进步的核心力量 , 昇腾CANN全面开源开放 , Mind系列组件也同步开源 , 并支持PyTorch、vLLM等业界开源社区 , 加速开发者自主创新 。
可以说 , 华为这一手硬件、一手软件直接开源了个痛快!

华为为何要开源?
一方面 , 开源能够和产业界、开发者社区基于超节点架构自研相关产品或部件、自定义调试调优、共享技术红利 , 加速产业协同发展 。
另一方面 , 开源还有利于消费者按需取用、降低适配成本 , 打造面向行业的超节点场景化解决方案 。
华为董事、ICT BG CEO杨超斌表示:
华为将围绕超节点架构持续创新 , 让超节点技术不但用于大型数据中心 , 也可以用于企业级的数据中心和小型工作站 。 同时 , 坚持硬件开放 , 支持各个伙伴 , 灵活打造面向各个行业的超节点场景化解决方案 。 坚持软件开源 , 让开发者灵活高效创新 , 共建繁荣生态 。

这就意味着 , 超节点技术不再是少数大型数据中心的专属利器 , 而是一个开放共享的算力生态 。
每个行业、每个企业、每位开发者都能根据自身需求 , 灵活搭建自己的算力“高速路” 。
无论是大型模型训练、复杂推理任务 , 还是企业级应用场景 , 用户都能按需获取硬件和软件能力 , 实现算力资源的高效利用和灵活扩展 。
当前 , 超节点已广泛服务于互联网、金融、运营商、电力、制造等行业 , 帮助各类企业提升算力效率和业务能力:
把各个计算单元、存储单元等组件通过大带宽、低时延互联网络平等互联 。 统一通信协议 , 省去额外协议转换开销 。 统一内存编址 , 实现全局资源池化 , 使有效算力能够随集群规模线性扩展 。 通过灵衢协议的高可靠机制 , 并融入华为在通信上几十年的积累 , 大幅提升集群可靠性 。
虽然多芯片互联、大规模计算节点以取代单芯片成为行业共识 , 但传统集群通过“服务器堆叠+以太网联接”扩展算力 , 往往带宽受限、时延高 , 而且随着规模越大效率也会越低、可靠性难以保障 。
基于这一痛点 , 华为以超节点架构为“路基” , 通过灵衢互联协议 , 把分散的服务器深度互联 , 让集群像一台机器一样学习、推理与协作 , 为AI大模型和行业应用提供真正高效、稳定、可扩展的算力底座 。
那么 , 什么是灵衢呢?
简单来说 , 灵衢(UnifiedBus)是一个面向超节点的互联协议 , 我们可以把它理解成一个开放共建的修路协议 。
依托灵衢的超节点架构具备资源池化、线性扩展、长稳可靠等关键特性 , 从而实现计算、存储单元的大带宽和低时延互联 , 解决了传统集群规模上升可靠性降低的痛点 。
不仅如此 , 灵衢还是开源的 。
这就意味着 , 不规定唯一的修路方式 , 协议全面公开 , 大家可以因地制宜 , 在不同路况的搭建合适的车道 。
结果就是——大家能自由开发系统、调度软件 , 生态越跑越繁荣 。
开放共建:修路不独占AI算力生态 , 本质上是 “修建数据传输与调度的高速路” 。
以英伟达的NVLink为例 , 它就像“工业园内部高速” , 服务GPU单机或机架内的数据传输——
这条路带宽高、延迟低 , 却因采用专有协议而相对封闭 。
编译、传输、通信、驱动等规则均由其独家制定 , 无法与其他生态互联互通 。
而华为则通过灵衢协议与超节点架构 , 走出了一条开放之路:
它构建的不是孤立路段 , 而是一套统一标准的 “综合交通枢纽”—— 从卡间互联的 “超高速磁悬浮” , 到机柜内互联的 “城市环线” , 再到机柜间互联的 “全国高铁网” , 均采用同一套协议规则 。
这意味着数据如同车辆 , 从起点到终点无需换道、等待 , 可全程畅通 。
同时 , 所有计算、内存、存储资源在此被打散、池化 , 系统能自动匹配最高效的调度路径 , 实现全局资源优化 。
更关键的是 , 华为不仅自己 “修路” , 还将这套技术标准向全社会公开 , 邀请硬件厂商(“建筑公司”)、芯片企业(“汽车制造商”)共同参与 , 按统一标准研发硬件、适配产品 , 打破 “园区式” 封闭生态的隔阂 , 推动整个国产算力生态做大做强 。
此前 , AMD、Intel、Apple 等企业发布的开源UALink , 虽有类似开放尝试 , 但受限于软硬件积淀不足 , 难以支撑大规模扩展的算力网络 。
就像杨超斌在会上提到的:当前 , 上下文长度和训练数据量激增 , 模型迭代速度加快、多任务协同与多轮推理、摩尔定律失效 , 行业的低时延等一系列要求 , 促使多芯片互联、大规模计算成为必然 。
而想充分释放百亿亿次计算和万亿参数AI模型的潜力 , 关键在于服务器集群中每个NPU间能否实现快速、无缝的通信 。
这些节点与集群 , 本质是数万到数十万个NPU 拼接成的 “高性能引擎” , 其协同编排能力 , 正是算力生态的关键 。
而华为的灵衢协议与超节点架构 , 不仅为开放硬件与开源软件提供了可行方案 , 也在真正的可用性上提供了另一种选择 。
如同华为轮值董事长徐直军介绍 , 华为即将上线的Atlas 950超节点、Atlas 960超节点、TaiShan 950超节点以及Atlas 950 SuperCluster 50万卡集群和Atlas 960 SuperCluster , 都基于灵衢实现了更大的算力规模、更高的带宽和更低的时延 。

对比当前全球最大集群xAI Colossus , Atlas 950 SuperCluster的规模是其2.5倍 , 算力是其1.3倍 , 堪称全球最强算力集群 。
而就像我们开头提到的 , Atlas 950超节点较英伟达产品的性能也毫不逊色 。
除了性能上的绝对优势 , 华为更以 “开放” 推动产业普惠 。
让不同规模、需求的用户都能搭建自己的 “AI 高速路” , 参与全场景算力生态建设 , 最终实现硬件、软件、算法的共建共赢 。
而对于中国AI算力生态乃至整个AI产业来说 , 这更是一种安全可靠可持续的选择 , 把AI建设在自己的基座之上 , 形成AI时代的标准和话语权 。
并且因为我们拥有最大的市场 , 这种生态一旦闭环 , 将会形成全新的创新飞轮 , 如同新能源汽车已经实现的一样 。
要致富 , 先修路 。
AI建设也是一样 , 但现在 , 华为率先提供了一条开源开放共赢的中国之路 。
— 完 —
量子位 QbitAI · 头条号签约
【中国AI高速路,华为给出开源开放方案】关注我们 , 第一时间获知前沿科技动态

    推荐阅读