MLPerf揭榜:拆解“黄金标准”背后的AI存储新姿势

MLPerf揭榜:拆解“黄金标准”背后的AI存储新姿势

文章图片

MLPerf揭榜:拆解“黄金标准”背后的AI存储新姿势

文章图片

MLPerf揭榜:拆解“黄金标准”背后的AI存储新姿势

文章图片


文 | 智能相对论(aixdlun)
作者 | 叶远风
大模型正在进入普遍万亿参数时代 。
一方面 , 算力的重要性近一步提升;另一方面 , 万亿参数的压力同样给到了存储——如果说过去AI计算对存储性能的需求似乎还不那么急迫 , 那么现在存储性能能否跟上 , 正在很大程度上决定AI创新的成败 。
企业如何选择最能契合需要的存储产品方案?
不久前 , 全球权威AI性能评测组织公布最新MLPerf? Storage v2.0基准测试结果 , 这份权威榜单 , 除了直接给出企业如何选择供应商的参考 , 更给出了一份存储面向万亿参数时代如何演进的答案 。

与真实场景需求共舞 , MLPerf“黄金标准”再进化
2018年 , 早在大模型还没起势时 , 谷歌、英伟达、英特尔、哈佛大学等 70余家顶尖科技企业和学术机构就联合推动发起了MLPerf , 要通过统一框架避免厂商自测的片面性 , 覆盖训练、推理、存储、HPC等全场景测试 , 为用户提供客观采购依据 。
到目前为止 , MLPerf已经被公认为AI硬件性能的“黄金标准” , 全球头部企业(英伟达、谷歌、AMD、华为等)均定期提交测试结果 。
可以看到 , 无论发起者还是参与者都是当下最前沿的科技企业 , 有着对AI计算发展最深度的理解 , 这使得MLPerf并非AI时代很多榜单那样的“奥数竞赛”(只为了刷分数而与现实需要脱节) , 而是一直来源于现实 , 并且指导现实技术进化 。
因此 , 看待MLPerf榜单 , 绝不能仅仅从参数排行来看 , 而更应该关注它背后的规则逻辑 , 这些规则逻辑代表着AI计算实践过程中最符合企业实际需要的现实 。
典型如 , MLPerf存储基准测试在规则上的变化过程 , 去年该测试进行了一次适应性升级到了V1.0版本(这次是2.0版本 , 规则沿用) , 最大的不同是核心指标发生变化 , 即在给定的训练模型和GPU型号下 , 存储系统能支持的GPU数量 , 而非每GPU带宽值或每计算节点带宽值——这次的MLPerf存储基准测试 , 其目标就是满足一定加速器利用率的前提下 , 测试出存储系统能够支持的最大加速器数量以及能够提供的最大带宽 。
规则变更的背景 , 是万亿参数时代到来 , 训练数据集的规模正从TB级别上升至PB级 , 存储系统必须具备强大的扩展能力和对大规模AI集群的支持能力 , 毕竟 , 支持更多的GPU数量将会决定系统性能的“上限”(固定资产投资方面也更能摊薄边际成本) , 只纠结单个GPU性能数据的参考意义并不大 。
华为OceanStor A系列存储联合济南超级计算技术研究院(JNIST)的合作解决方案 , 在此次MLPerf测试中获得单存储设备、每U存储设备及单客户端性能等榜单上的全球第一 , 原因就在于此 。
从直接的参数性能来看 , 在Training场景中 , 单台8U双节点架构的OceanStor A800获得单存储设备性能第一 , 持续提供698 GiB/s的稳定带宽:

单台2U双节点架构的OceanStor A600获得每U设备及单客户端性能第一 , 其中每U带宽稳定达108 GiB/s , 单客户端带宽达104 GiB/s:

同样的命题 , 显著的领先 , 离不开华为OceanStor A800以单台8U双节点架构可支撑255张H100 GPU训练数据吞吐需求 , 而OceanStor A600以单台2U双节点架构的可支撑76张H100 GPU训练场景的吞吐需求 。
不是有人“打榜”到了第一 , 而是一贯来源于实际需求的MLPerf在告诉业界什么才是最符合需要的 , 这才是“黄金标准”的内涵 。
如此 , MLPerf也才能反过来引导和推进技术创新 , 带来英伟达Blackwell的FP4精度、TensorRT-LLM框架优化、Untether AI芯片能效提升等“榜单测试反哺技术创新”的经典案例 。
值得一提的是 , 多加速器支持并不是所有场景的AI存储需求都十分迫切 , 那些足够有实力的厂商要想充分体现自己在新需求下的能力 , 必须选择更能压榨性能的用例 。 因此可以看到华为存储在MLPerf Storage Traning场景下3D U-Net、Resnet50、cosmoflow三个用例中 , 选择了(在H100算力卡下)3D U-Net这个对存储带宽压力最大的训练用例 , 这样才能将其多加速器支持进行最极致的展现 , 充分表达存储产品的性能 。

“强化协同下的资源池化”——AI计算、存储发展趋势殊途同归
不久前的世界人工智能大会上 , 384块昇腾910C组合在一起昇腾384超节点成为全场焦点:

以更多的芯片数量进行AI计算 , 资源“池化”集群获得高算力(昇腾384超节点总算力高达300 PFLOPS) , 类似的还有英伟达的NVIDIA GB200 NVL72集群系统 , 72个GPU实现180 PFLOPS算力 。
MLPerf在存储方面评测规则及胜出厂商的玩法 , 其实与这种AI计算性能的发展逻辑同向而行 。 当多芯片资源的池化整合大大拉升AI计算的能力上限 , 对应地 , 存储去支持更多的GPU数量、实现总带宽突破而不纠结对单个GPU支撑能力数据 , 也是大势所趋 。
在这个过程中 , 协同能力是关键——不能“无脑堆砌” , “强化协同下的资源池化”才有意义 。 英伟达用于卡间互联的NVLink技术以及传统铜缆传递数据支撑不起更庞大的集群 , 其集群算力比不过有光通信支持的昇腾超节点 。
在AI存储对多GPU的支持这里 , 也存在类似的现象 。
由于多GPU计算存在“木桶效应” , 在一个计算Step中 , 某一个GPU数据延迟会造成其他加速器“等待” , 最终拖慢整个Step使得利用率降低、无法获得预期的带宽 , 存储必须做到在高带宽压力下(意味着更多GPU) , 也能够给训练系统提供稳定的低时延(提升利用效率) , 华为OceanStor A系列存储正是与合作伙伴JNIST一起解决了这一“既要又要”难题才最终登顶榜首 。
换句话说 , 在AI存储这里 , 不是你想要支撑更多GPU就能支撑起来的 , 做好协同才能不断提升带宽上限 , 否则“加法”的效率会越来越低 。
“屏蔽复杂性” , 存储创新回归IT服务本质
“强化协同下的资源池化”对企业而言究竟意味着什么?
答案是IT供应商的本质任务——屏蔽复杂性 , 无论是AI计算还是AI存储 , 企业只需要索求一个最终的结果 , 有限预算下更强大的算力或者更高的带宽 , 各种复杂技术协同都由供应商来解决 。
这个底层逻辑推动着那些优质存储厂商的发展 , 登顶MLPerf的华为OceanStor A系列产品 , 在更体系化的层面是华为AI存储解决方案的一部分 , 后者在更整体上帮助企业全面屏蔽复杂性 , 才有了前者的“出街” 。

具体来看 , 数据在当下已经成为企业的重要资产 , 但过去普遍的基础设施分开建设的做法 , 让企业们形成了“烟囱式”数据孤岛 , 这是数字化时代留给智能化时代的负面遗产 , 它很“复杂” , 严重影响到企业的AI创新 。
而华为存储站了出来 , 基于过去长期服务企业的经验 , 帮助企业“屏蔽复杂性” , 构建起了统一的AI数据湖解决方案 。 不管企业数据再乱、再复杂 , 需要支撑AI计算的时候 , 华为的方案创新都能帮助企业“抹平”数据到计算的鸿沟 , 智能分级流动 , 打破数据孤岛 , 保证AI数据高效供给 , 大幅提升AI集群算力利用率 , 节省大模型训练时间 。
这是一种“瞌睡遇枕头”式的创新 , 在这个创新体系中 , 除了OceanStor A系列 , 华为存储还提供大容量存储池 , 满足企业多模态、万亿参数大模型容量诉求 , 以及数据保护全面保障数据安全 。
顺着这个思路往下看 , 很多存储创新都更能够被理解 , 例如当企业需要不同类型的数据范式时 , 华为存储构建PB级KV Cache全局共享资源池 , 不仅10倍提升推理吞吐 , 还内置RAG知识库 , 各种“杂七杂八”的数据形式都被支持 , 企业不需要直面这些“复杂性” , 只需要放手发展自己的AI能力即可 。
总而言之 , MLPerf榜单的“登顶”者 , 向业界展现的是一系列围绕市场最真实需要的存储创新进化过程 , 这不是一次简单的“打榜” , 而是创新风向的指南针 。
【MLPerf揭榜:拆解“黄金标准”背后的AI存储新姿势】*本文图片均来源于网络

    推荐阅读