
文章图片
即使是1万亿参数的开源模型 , 也只需要几分钟、1个云实例 , 就可以轻松跑起来 。
2025百度云智大会 , 百度智能云正式发布百度百舸AI计算平台5.0全新版本 , 对AI计算基础设施进行了全面升级 。
此次升级在网络、算力、推理系统及训推一体系统等四大方向实现全面能力提升 。
- 高速互联:VPC、RDMA、X-link三张网实现全面升级 , 通信更快 , 延迟更低 , 模型训推效率得到提升;
- 超节点:昆仑芯超节点上线公有云服务 , 超级算力正式可用 。 最新测试显示 , 超节点性能达到上一代实例8倍 , 单卡吞吐提升近一倍 , 比国内的同类产品高出15% 。
- 推理系统:通过算子解耦、自适应并行策略及分布式KV Cache等创新 , 将DeepSeek R1的推理吞吐效率提升50% , 大幅降低长文本响应延迟;
- 强化学习框架:百舸强化学习框架 , 提升训练、推理效率 。
相比传统的8卡服务器算力交付方式 , 昆仑芯超节点将64张昆仑芯XPU放到同一个机柜 , 卡间互联带宽提升8倍 , 单整机柜训练性能提升了10倍 , 单卡推理性能提升了13 倍 。 从性能上讲 , 一个机柜就能顶过去上百台机器 。
昆仑芯超节点的创新设计昆仑芯超节点基于百度天池系列AI高密液冷整机柜 , 支持整柜一体化的交付模式 。 同时采用水、电、网3盲插设计 , 在无需精准对准的条件下实现组件快速可靠对接的技术 。 昆仑芯超节点机柜在空间利用上发挥了极致 , 实现了超高密度的算力水平 。
昆仑芯超节点的计算节点基于 21 寸标准 1U 计算节点架构 , 前窗 I/O 高度集成 , 可灵活支持百度太行 DPU、4 张网卡、4 块 NVMe、2 个 M.2、HBA 卡或 RAID 卡等多种配置 , 满足复杂多样的算力场景需求 。 计算节点采用模块化设计 , CPU 板、PCIe Switch 板与 GPU 板相互解耦 , 支持国产化 CPU 平台 , 具备极高的灵活性与可扩展性 。 每个节点配备双 PCIe Switch 芯片 , 通过双上行链路与 CPU 高速互联 , 构建 1:1 无阻塞互联结构 , 实现了高效调度与低延迟通信 , 彻底消除数据瓶颈 。
昆仑芯超节点在设计上突破了传统单机8卡互联的架构限制 , 创新性地引入多 Switch 通信结构 。 以 32 卡为例 , 可以通过 4 台 Switch Tray 模块实现算力全互联 , 构建出一个Scale-Up域规模为32卡的统一算力池 。 在Scale-Out网络设计上 , 每个计算节点预留4张PCIe网卡扩展位 , 实现XPU与NIC的1:1绑定设计 , 单节点最高支持4张400G网卡 。
在供电单元 , 昆仑芯超节点将电源模块PSU与计算节点解耦 , 所有电源集中放置于Power shelf中 , 为整机进行集中供电 , 以便实现昆仑芯超节点的高密部署 。 昆仑芯超节点的单个Power shelf高度2U , 内置12个PSU电源单元 , 支持10+2电源冗余 , 采用双输入ATS技术 , 相比传统单输入电源PSU, 电源数量节省40% 。
昆仑芯超节点采用液冷和风冷相结合的混合散热架构 , 解决高功耗、高密度散热挑战 。 在液冷系统中 , 采取了微通道冷板液冷技术及并联水路设计 , 通过精准调控冷却液流量与流速 , 最大化 XPU 和 CPU 的散热效率 。 在风冷系统中 , 做了进一步优化设计 , 将计算节点的RDMA网卡、VPC网卡等均部署在冷通道 , 减少网卡和光模块由于散热问题导致的故障频率 , 使得集群整体更加稳定可靠 。
昆仑芯超节点采用业界领先的双层带外管理架构 , 由机柜级 RMC与节点级 BMC协同组成 , 覆盖计算节点、互连模块、电源模块与散热模块 , 实现全链路智能运维 。
昆仑芯今年的重要进展今年 , 昆仑芯接连宣布重要进展:2月 , 新一代产品昆仑芯P800万卡集群成功点亮 。 此次点亮突破了硬件扩展性瓶颈 , 如卡间互联的拓扑限制 , 避免通信带宽成为瓶颈;同时 , 围绕芯片及集群功耗 , 基于万卡规模常规方案功耗可达十兆瓦或更高 , 采用创新性散热方案 , 从而解决万卡集群的能效与散热问题;完善模型的分布式训练优化 , 采用高效并行化任务切分策略 , 训练主流开源模型的集群MFU提升至58% 。
3月 , 搭载昆仑芯P800的昆仑芯服务器中标招商银行AI芯片资源项目 。 昆仑芯P800将围绕多个核心业务场景 , 全面支持招商银行落地大模型应用 。 根据项目实测 , 昆仑芯P800对Qwen系列性能支持远超同类型国产芯片 , 部分多模态模型推理性能达到全行业领先水平 , 可快速提升多模态数据分析、客服、代码助手等场景的应用效能 。
4月 , 发布昆仑芯超节点产品 , 宣布正式点亮昆仑芯P800三万卡集群 。 李彦宏称 , “这是国内首个全自研的3万卡集群 , 可同时承载多个千亿参数大模型的全量训练 , 支持1000个客户同时做百亿参数的大模型精调 。 ”
【昆仑芯超节点正式启用】7月 , 昆仑芯完成新一轮股权融资 , 华兴资本旗下华兴证券担任本轮独家财务顾问 。 华兴资本集团旗下华兴证券董事总经理、硬科技负责人阮孝莉表示:“本轮融资成功引入重量级产业方与国家级资本 。 当前AI产业已进入大规模商业落地的关键阶段 , 智能算力正成为科技竞争的核心驱动力 。 相信昆仑芯将持续以'芯片+集群+生态'的全栈优势 , 夯实中国智能时代的硬科技根基 。 ”
8月 , 昆仑芯宣布中标中国移动集采项目十亿级订单 , 并在三个标包均排名第一 。 中国移动《2025年至2026年人工智能通用计算设备(推理型)集中采购项目》招标围绕“类CUDA生态”及“CANN生态”的AI通用计算设备展开 , 在“类CUDA生态”标段中 , 基于昆仑芯的AI服务器产品中标份额排名第一 。
*声明:本文系原作者创作 。 文章内容系其个人观点 , 我方转载仅为分享与讨论 , 不代表我方赞成或认同 , 如有异议 , 请联系后台 。
想要获取半导体产业的前沿洞见、技术速递、趋势解析 , 关注我们!
推荐阅读
- 破解300倍算力增长瓶颈,华为云Tokens服务全面接入384超节点
- 华为云Tokens服务全面接入384超节点:凭“大杂烩”打造先进算力
- 华为坚决清仓,昆仑玻璃+卫星通信+50倍变焦,512GB大降4000元
- 一周六连发!昆仑万维将多模态AI卷到了新高度
- 拿下3D生成行业新标杆!昆仑万维Matrix-3D新模型鲨疯了
- 超节点建设年开启,谁来领跑下一代智算基础设施?
- 浪潮信息发布新一代AI超节点,支持四大国产开源模型同时运行
- 单机支持超万亿参数模型!浪潮信息发布超节点,给开源AI打造开放底座
- 突破单卡性能上限,新华三超节点一览
- 面向万亿参数大模型,浪潮信息发布“元脑SD200”超节点
