
文章图片

文章图片

文章图片
随着生成式AI、预测式AI的浪潮一波高过一波 , 工作负载的类型越来越丰富、复杂度越来越高 , 对于AI服务器性能、能效的需求也是水涨船高 。
每每说到AI服务器、AI工作站、AI一体机等装备 , 很多人的第一反应就是高算力的AI GPU加速器 。
它确实是整个AI系统的主角 , 承担着最繁重的使命 , 但是别忘了 , 只有GPU加速器是无法独自支撑整个系统的 , 而任何计算系统都离不开CPU处理器的坐镇 。
CPU处理器作为任何计算系统的中枢和大脑 , 在AI系统中也起着不可替代的作用 , 只是一贯比较低调罢了 。
如果说GPU加速器是AI系统中在台前炫技的耀眼明星 , CPU处理器就是隐藏幕后、默默风险的大管家 , 协调着整个系统的高效运行 , 尤其是保障GPU加速器的各项需求可以得到全面满足 , 强大的算力可以高效释放 。
因此 , 这个时候的CPU处理器 , 我们一般称之为“主控CPU” 。
采用最合适、匹配的主控CPU搭档AI加速器 , 组成高效的AI加速系统 , 可以在工作负载性能、总体拥有成本(TCO)之间 , 达到理想的平衡 。
在AI加速系统中 , 主控CPU负责通过提供高效的任务管理 , 以及出色的预处理性能 , 来优化处理性能和资源利用率 , 这对于确保AI模型训练流程中的数据高效供给、维持AI处理器的理想运行状态 , 都是至关重要的 。
主控CPU作为AI加速系统的“中枢神经” , 可以执行管理、优化、预处理、处理、卸载等各种任务 , 从而提高系统性能和能效 。
Intel的至强系列处理器 , 尤其是最新一代至强经系列 , 无论是根据各种AI基准测试 , 还是根据全球客户的实际部署经验 , 都可以说是强大、高效AI加速系统的主控CPU的理想之选 。
NVIDIA最新、最强的DGX B300系统 , 就选择了Intel新款至强6776P来作为主控CPU , 而去年的MGX系统曾使用至强6767——Intel也是NVIDIA唯一的主控CPU合作伙伴 。
至强6为何如此之强?
我们可以从六个不通过方向 , 逐一看看AI加速系统对主控CPU的需求 , 以及至强6系列是如何满足的 。
1、AI加速系统需要非常强大、灵活的IO性能 。
至强6系列可以支持多达96条PCIe 5.0通道 , 比上代增加了20% , 双路系统就是192条 , 因此带宽超高、数量管够 , 可以灵活分配给不同的加速器、扩展卡 。
2、AI加速系统需要尽可能高的单线程性能 。
至强6系列不但拥有最多128个性能核心、504MB海量三级缓存 , 还具备强大的单线程性能 , 并支持不同的睿频加速技术 。
比如PCT(优先核心睿频) , 可以把少部分核心加速到更高的频率来服务相应的GPU , 最多支持8个核心 。
比如SST , 可以针对不同的核心配置分配不同的频率 , 使其拥有不同的性能 。
3、AI加速系统需要尽可能高的内存容量与带宽 。
至强6系列不但支持更高频率的DDR5-6400 , 还独家率先支持MRDIMM内存 , 频率可高达8800MHz , 带宽进一步提升30% , 对比上代领先2.3倍 , 对于内存敏感性AI负载尤其有利 。
再加上多达12个内存通道 , 至强6系列可提供无与伦比的内存带宽与容量 , 单路系统最高支持3TB 。
NVIDIA DGX B300系统 , 就选择了每通道两条DIMM(2LDPC)、5200MHz频率的方案 , 主要是为了实现更大的内存容量 。
另外 , 至强6系列还支持CXL , 可保持CPU内存空间与AI加速器内存之间的一致性 , 实现高性能资源共享 , 降低整体系统成本 。
4、AI加速系统需要CPU做好数据预处理和卸载 。
至强6系列支持AMX(高级矩阵扩展)指令 , 新增支持FP16数据格式 , 非常适合这项工作 , 尤其是随着MoE、MLP模型的出现和流行 , 在CPU上卸载部分工作越来越流行 。
5、AI加速系统需要强大的RAS 。
【Intel至强6:AI江湖的幕后大佬、NVIDIA的唯一伙伴】RAS指的是可靠性、可用性、可维护性 , 对于工作站、服务器、数据中心硬件是必不可少的属性 , 至强6当然也少不了 , 有了它就可以大大减少大规模停机时间 , 避免高额损失 。
RAS技术支持多项高级管理功能 , 包括遥测、平台监控、共享资源控制、实时固件更新等 , 汇聚了平台合作伙伴、ISV独立软件开发商、解决方案集成商的丰富专业知识与经验 。
6、AI加速系统需要灵活的形态 。
至强6系列支持DC-MHS全球标准 , 无论是NVIDIA MGX还是DGX , 双方都有合作 , 最新的就是DGX B300 , 由双方共同打造 , 开展了大量的技术验证工作 。
至强6系列家族中 , 有三款特殊型号是专门用于主控CPU的 。
它们均基于P核即性能核的设计 , 目前的主控CPU均是如此 , 未来是否会有E核即能效核设计 , 还要观察市场需求的变化 。
其中 , NVIDIA DGX B300采用的是至强6776P , 并且是双路配置 。
至强6776P配置了64个核心(128线程) , 基准频率2.3GHz , 全核睿频3.6GHz , 最大睿频3.9GHz , PCT睿频可以在最多8个核心上跑到4.6GHz , 比传统SKU再次提高了多达700MHz 。
另外 , 它配备336MB缓存 , 支持八通道DDR5-6400、MRDIMM-8000内存 , 可提供88条PCIe 5.0通道 , 热设计功耗350W 。
这里解释一下几种不同的睿频频率:
全核睿频即All Core Turbo , 是指所有核心处于活跃状态时 , 所能运行的最高频率 , 适合作为虚拟机等场景 , 此时需要每一个核心跑在尽可能高的性能上 。
最大睿频即Max Turbo , 是在传统SKU中能够达到最高的睿频 , 它假设一半核心活跃、另一半核心休眠 , 活跃核心就能够运行在更高的频率 , 也就是Max Turbo对应的频率 。
优先核心睿频即Priority Core Tubo , 是指只开启更少量的核心 , 一般2-8个 , 让它们进一步加速到更高的频率 , 从而以更高的性能 , 满足AI加速系统中GPU、I/O等的苛刻需求 , 避免出现系统瓶颈 。
至于使用哪些核心进行加速 , 可以在启动前使用BIOS设定 , 也可以在运行中通过SST-TF工具实时设定 。
更低端的至强6774P也是64核心 , 除了基准频率提高到2.5GHz , 与至强6776P最大的不同就是仅支持单路但可提供多达136个IO通道 , 扩展经更加强悍 。
更高端的至强6962P拥有72核心144线程、432MB缓存 , 基准频率就有2.7GHz , 全核睿频也是3.6GHz , 最大睿频也是3.9GHz , PCT睿频则是4.4GHz 。
它还支持12通道内存 , 可提供96个PCIe通道 , 热设计功耗来到了500W 。
以上三款都是面向所有客户的开放产品 , 属于产品规划和路线图的一部分 , 未来不排除根据市场需求或者客户定制化需求 , 推出更多产品 。
刚才多次提高到NVIDIA DGX B300 AI加速系统 , 这就是它的总览图 , 属于高端的DGX , 专为AI训练等应用而生 。
它配备了双路至强6776P主控CPU处理器 , 彼此通过UPI高速总线互连 , 每路都是最多8个PCT睿频核心 , 客户在使用的时候可以根据需要定制选择8个、6个、4个或2个核心用于PCT睿频 。
每一路至强6776P之下 , 通过两个NIC高速网卡 , 连接四块AI GPU , 整个系统就是八块AI GPU , 彼此通过NVLink高速总线互连 。
这套系统在选择主控CPU时采取了比较平衡的设计 , 但性能依然是业界领先的 , I/O性能、RAS性能等等也都很均衡 , 无疑是个理想的选择 。
当然 , 我们知道 , NVIDIA AI加速系统中已经普遍使用自行研发的Grace CPU处理器 , 来搭配AI GPU加速器 。
事实上 , 目前市场上 , 许多AI系统提供商都在使用自研主控CPU来配合AI GPU 。
从Intel的角度来看 , 其服务方向是为客户提供更多选择 , 而且作为开放系统 , 始终秉持开放态度 , 为主控CPU提供最佳选择 , 以满足客户的多样化需求 。
NVIDIA DGX B300产品选择了Intel至强6作为主控CPU , 而且这并非测试或者试验产品 , 而是一款商业化的成熟产品 , 无疑是对Intel至强产品性能和兼容性的有力认可 。
推荐阅读
- Apple Intelligence再新增功能,国行版苹果AI功能前瞻!
- 淘汰的至强处理器,成为平民玩家畅玩3A游戏的入门之选
- ASML麻烦了?英国EBL技术突破5nm,外媒:芯片江湖风云再起!
- Intel酷睿9 270H首次跑分:单线程暴增14%、还更省电
- 中国音响江湖:四大门派的技术暗战与隐形王者
- AMD显卡叫好不叫座 份额只剩下8%!Intel更惨 直接归零
- Intel未来核显大变!三代Xe3、四代Xe4混血
- Intel未来两代酷睿现身官方文档!还有你们盼望的纯大核
- PC玩家沮丧:Intel已经完全抛弃“打游戏”的了
- 苹果命名:iOS 26全家桶6月10日亮相,VisionOS设计一统江湖!
