面向万亿参数大模型,浪潮信息发布“元脑SD200”超节点

面向万亿参数大模型,浪潮信息发布“元脑SD200”超节点

文章图片



元脑SD200以开放系统设计向上扩展支持64路本土GPU芯片 , 可实现单机内运行超万亿参数大模型 。
8月7日 , 浪潮信息发布面向万亿参数大模型的超节点AI服务器“元脑SD200” 。

据介绍 , 元脑SD200基于浪潮信息创新研发的多主机低延迟内存语义通信架构 , 以开放系统设计向上扩展支持64路本土GPU芯片 , 可实现单机内运行超万亿参数大模型 , 并支持多个领先大模型机内同时运行及多智能体实时协作与按需调用 , 目前已率先实现商用 。
在实际评测中 , 元脑SD200运行DeepSeek R1和Kimi K2等全参模型的64卡整机推理性能实现超线性扩展 。
【面向万亿参数大模型,浪潮信息发布“元脑SD200”超节点】当前 , 混合专家模型的高效架构正在驱动大模型参数规模持续扩展 , 国内外前沿大模型的参数量快速突破万亿规模 , 这给算力系统架构提出新的挑战 。 一方面 , 模型参数量增加和序列长度增加带来的键值缓存激增 , 需要智能计算系统具有超大显存空间承载 , 依靠单芯片或节点的性能提升已难以为继;且其推理过程作为通信敏感型计算 , 对分布式计算通信时延要求极高 , 需要构建更大向上扩展高速互连域 。 另一方面 , 智能体AI开启多模型协作的新范式 , 其推理过程需要生成比传统模型多近百倍的数据词元 , 导致计算量激增 。
元脑SD200超节点AI服务器是面向万亿参数大模型AI时代而设计 , 基于开放总线交换技术构建 , 在单机内实现了64路GPU芯片的高速统一互连 , 成功解决万亿大模型对超大显存空间和超低通信时延的核心需求 。 在开放架构之上 , 元脑SD200通过智能总线管理和开放的预填充-解码分离推理框架实现软硬件深度协同 , 智能化管理复杂AI计算任务 。
在架构层面 , 元脑SD200基于自主研发的开放总线交换技术首创多主机三维网格系统架构 , 实现64路本土GPU芯片高速互连;通过创新远端GPU虚拟映射技术 , 突破多主机交换域统一编址难题 , 实现显存统一地址空间扩增8倍 , 单机可以提供最大4TB显存和64TB内存 , 为万亿参数、超长序列大模型提供充足键值缓存空间 。 同时 , 依托百纳秒级超低延迟链路 , 构建64卡大高速互连域统一原生内存语义通信 , 实测结果表明 , 在推理过程常见的小数据包通信场景中 , 全规约(All Reduce)性能表现优异 , 显著提升计算与通信效率 。
在系统层面 , 根据万亿参数大模型计算、通信需求特征 , 浪潮信息开发智能总线管理系统 , 实现超节点64卡全局最优路由的自动创建 , 支持不同拓扑切换 , 资源按需切分 。 对于全规约、全聚集(All Gather)等典型通信算子 , 开展不同数据量大小的细粒度通信策略设计 , 如多层级通信机制等 , 实现通信时延进一步降低 。 同时依托开放的PD分离框架 , 支持异步KV Cache高效传输与差异化并行策略 , 在提升业务服务级别目标的同时保持对多元算力的兼容性 , 实现计算与通信架构的深度协同优化 。
元脑SD200超节点AI服务器通过软硬协同系统创新 , 成功向上扩展突破芯片性能边界 , 在大模型场景中展示出优异的性能表现 。 结合优化的PD分离框架 , SD200超节点满机运行DeepSeek R1全参模型推理性能超线性提升比为3.7倍 , 满机运行Kimi K2全参模型推理性能超线性提升比为1.7倍 。
*声明:本文系原作者创作 。 文章内容系其个人观点 , 我方转载仅为分享与讨论 , 不代表我方赞成或认同 , 如有异议 , 请联系后台 。
想要获取半导体产业的前沿洞见、技术速递、趋势解析 , 关注我们!

    推荐阅读