
文章图片

文章图片

文章图片

文章图片
克雷西 henry 发自 凹非寺
量子位 | 公众号 QbitAI
一百万Token的输出推理成本 , 只要一块钱了 。
今年的人工智能计算大会上 , 浪潮信息发布了超扩展AI服务器元脑HC1000 , 把AI推理成本狠狠地打了下来 。
与此同时 , 浪潮信息还推出另一杀手锏——元脑SD200超节点 , 也将DeepSeek-R1的Token生成时间打到了毫秒量级 。
浪潮信息首席AI战略官刘军
随着AI竞赛进入智能体产业化阶段 , 能力、速度和成本成为了决胜的核心三要素 。
浪潮信息打出的这套组合拳 , 针对的就是其中涉及到AI Infra的两项关键指标——速度与成本 。
元脑SD200和元脑HC1000 , 将为多智能体协同与复杂任务推理的规模化落地 , 提供高速度、低成本的算力基础设施 。
DeepSeek-R1推理进入10ms时代首先来看元脑SD200超节点AI服务器 。
它可以在单机内同时运行DeepSeek-R1、Kimi K2等四大国产开源模型 , 支持超万亿参数大模型推理以及多智能体实时协作 , 还支持同时运行64个AlphaFold3蛋白质预测模型 。
特别是在速度上 , 元脑SD200率先将大模型端到端推理延迟控制在了10ms以内 。
实测中 , 元脑SD200在运行DeepSeek-R1时 , TPOT(每Token输出时间)仅有8.9ms , 领先了前SOTA(15ms)近一倍 , 还使DeepSeek-R1 671B的推理性能实现了最高16.3倍的超线性扩展率 。
并且元脑SD200并没有因为速度而牺牲系统的稳定性与可靠性 , 而是分别在系统硬件层、基础软件层和业务软件层等层面进行针对性设计和优化 , 保证整机运行高可靠设计 , 真正做到了“快而不乱” 。
为什么元脑SD200如此强调“速度”?
因为速度已经成为智能体时代AI竞争的关键变量 。
随着AI进入智能体时代 , 交互方式发生了巨大改变 , 过去大模型只需进行人机对话 , 但现在还需要智能体与智能体之间的交流 , 对模型的生成速度更加敏感 。
特别是在实际应用场景中 , 智能体与智能体之间的交互轮次更多 , 延迟会随这一过程不断累积 , 导致整个系统运行速度无法被用户接受 , 在竞争中将成为致命缺陷 。
除了用户的直观感受 , 造成商业场景对速度要求苛刻的原因还有许多 。
比如在金融交易当中 , 对响应时效的要求极为苛刻 , 反欺诈算法需要在10毫秒的时间里识别风险交易 , 否则后果不堪设想 。
因此 , Token生成速度不仅影响用户体验 , 更直接关乎商业产出的稳定性与可靠性 。
那么 , 制约Token生成速度提升的因素 , 又是什么呢?
问题主要出在了通信环节 。
当参数规模快速突破万亿级别 , 模型必须拆分到几十甚至上百张卡上时 , 原本在单机内部的高速通信变成了跨机的网络传输 , 通信就成为了更严峻的挑战 。
特别是在处理推理过程中大量的小数据包时 , 延迟问题变得极为突出 , 而且每一次跨机通信都可能带来额外延迟 , 当多个万亿级模型需要实时协作时 , 传统架构已经完全无法应对 。
针对这些问题 , 元脑SD200先是在架构层面进行了革新 。
具体来说 , 元脑SD200采用了创新的多主机3D Mesh系统架构 , 由自研的Open Fabric Switch贯通 , 将多个主机的GPU资源整合成一个统一的计算域 , 并且当中能够实现跨主机域全局统一编址 。
这一架构让显存统一地址空间扩增8倍 , 可实现单机64路的Scale up纵向扩展 , 最大可以提供4TB显存和64TB内存 , 构建超大的KV缓存分级存储空间 。
并且通过Smart Fabric Manager , 元脑SD200实现了超节点64卡全局最优路由的自主创建 , 保障AI芯片间通信路径最短 , 进一步缩短基础通信延迟 。
除了架构 , 在互联协议方面 , 为了实现极低的Latency通信 , 元脑SD200采用了极简的三层协议栈 , 无需网络/传输层 , 仅凭物理层、数据链路层和事务层三层即可实现GPU直接访问远端节点的显存或主存 。
这种模式无需“发送-接收”式的消息语义拷贝 , 将基础通信的延迟打到了百纳秒级 。
同时 , 为了实现稳定可靠通信 , 元脑SD200原生支持由硬件逻辑实现的链路层重传 , 可将重传延迟降低至微秒级;通过采用分布式、预防式流控机制 , 从根本上避免拥塞和丢包 。
此外 , 元脑SD200还通过采用通信库优化、并行推理框架、PD分离策略及动态负载均衡等创新技术 , 充分发挥超节点的性能优势 。
最终DeepSeek-R1 671B推理 , 从16卡扩展到64卡 , 实现了16.3倍超线性的扩展率 。
百万Token推理只要一块钱除了元脑SD200 , 浪潮信息还带来了超扩展AI服务器元脑HC1000 。
元脑HC1000不仅支持极大推理吞吐量 , 还能让单卡成本降低60%、均摊系统成本降低50% , 将每百万Token输出成本降低至1元 。
如果说速度是智能体应用的生命线 , 那么成本则决定了度过生存关的应用能否实现盈利 。
在智能体时代 , Token消耗量正在暴增 , 以辅助编程为例 , 每月消耗的Token数比一年前增长了50倍 。
如果从经济角度考虑 , 企业每部署一个智能体 , 平均每个月消耗的Token成本将达到5000美元 。
并且随着任务复杂度、使用频率等指标不断攀升 , 据浪潮信息预计 , 未来5年智能体应用带来的Token消耗将呈现出指数级增长 。
Token数量只增不减 , 如果不把单个Token成本打下来 , 那么在高强度交互的智能体环境中 , Token成本必定成为规模化部署的瓶颈 。
那么 , Token推理成本又为什么居高不下呢?
推理阶段算效(MFU)低是主要原因 。
具体来说 , 在训练时 , 模型的FLOPs的利用率可能达到50% , 但在推理阶段 , 这个数值可能低出一个数量级 。
进一步的原因是推理的每个阶段的运算特点均不相同 , 与算力不能实现有效匹配 。
元脑HC1000瞄准的出发点正在于此——
既然每个阶段有不同的运算特点 , 那就将推理的计算流程拆解 , 对模型结构进行解耦 。
元脑HC1000不仅将推理过程的Prefill和Decode阶段分离 , 还将Decode阶段进一步分解成了注意力运算和FNN , 从而提高资源利用效率 。
解耦之后的另一个好处是 , 对于芯片的指标要求不再是“五边形战士” , 可以针对性地做进一步成本削减 , 节约成本的同时还能降低功耗 。
在硬件层面 , 元脑HC1000创新16卡计算模组设计、单卡“计算-显存-互连”均衡设计 , 大幅降低单卡成本和每卡系统分摊成本 。 同时 , 全对称的系统拓扑设计支持超大规模无损扩展 。
据测算 , 元脑HC1000的推理性能相比传统RoCE提升1.75倍 , 单卡模型算力利用率最高提升5.7倍 。
另外 , 元脑HC1000还采用全对称DirectCom极速架构 , 能够以超低延迟直达通信 , 保障计算、通信实现1:1均衡分配 。
面向未来的AI创新计算架构面向智能体AI时代 , 浪潮信息通过元脑SD200与元脑HC1000两大杀手锏 , 破解了智能体规模化落地中的速度与成本两大关键难题 。
一方面 , 在智能体商业化过程中 , Agent应用往往遵循“快杀慢”的规律——
面对海量选择 , 用户更倾向于选择输出速度更快、交付效率更高的工具;
另一方面 , 随着应用规模扩大、交互频次提升 , 行业关注的重点也从单纯算力转向总体拥有成本 , 尤其是直接影响商业可行性的单Token成本 。
基于此 , 浪潮信息面向未来智能体的商业化场景 , 在速度与成本上率先突围 , 把“百万Token上下文”从高成本的技术演示 , 转化为可规模化运营的现实能力 。
然而 , AI算力的可持续发展依然面临三大挑战——系统规模接近工程极限、电力基础设施压力巨大 , 以及算力投入与产出不平衡 。
在此背后 , 是GPGPU主导的通用计算架构的局限性正在逐渐显现 。
因此 , 有必要转变思维 , 思考新的路径 , 从规模导向转为效率导向 , 重新规划和设计AI计算架构 , 发展AI专用计算系统 。
浪潮信息首席AI战略官刘军指出:
通用架构效率低 , 但适应性强 , 易于产业化推广;专用架构效率高 , 但应用面窄 , 不利于普及推广 。 计算产业发展的历程 , 就是一个专用与通用对立统一、交替发展的过程 。
这意味着 , 以GPGPU等主导的通用AI计算架构正在面临多重挑战 , 正在向细分化、专业化的应用阶段加速转型 。
顺应这一趋势 , 浪潮信息通过软硬件协同设计与深度优化 , 面向具体应用 , 探索AI下半场的算力新路径 。
目前 , 浪潮信息已经交出了元脑SD200和元脑HC1000这样的答卷 。
未来 , 其将进一步针对核心算法算子进行硬件化、电路化设计 , 实现性能的数量级提升 , 从而有效应对未来Token规模持续增长所带来的巨大计算需求 , 为智能体时代的高效落地提供可持续、可扩展的基础设施保障 。
— 完 —
量子位 QbitAI · 头条号签约
【8.9ms推理速度新纪录!1元百万token,浪潮信息加速智能体产业化】关注我们 , 第一时间获知前沿科技动态
推荐阅读
- 首款推理具身模型,谷歌DeepMind造!自主理解/规划/执行复杂任务
- 多模态推理最高加速3.2倍!华为诺亚新算法入选NeurIPS 2025
- 对话高通中国董事长孟樸:「智能网联汽车」是欧美提出来的,但「中国速度」更快
- 首个代码世界模型引爆AI圈,能让智能体学会「真推理」,Meta开源
- 蚂蚁数科提出隐私保护AI新算法,可将推理效率提升超过100倍
- Mini-Omni-Reasoner:实时推理,定义下一代端到端对话模型
- 为什么你的USB3.2接口只跑出了2.0的速度?
- 攻克大模型训推差异难题,蚂蚁开源新一代推理模型Ring-flash-2.0
- 登顶多模态推理榜MMMU,UCSD新方法超越GPT-5、Gemini
- 让机器人「不只是走路」,Nav-R1引领带推理的导航新时代
