
文章图片
应对更多数据时提升性能的问题与解决方案 。
【芯片设计中优化数据移动】对新型更优人工智能模型的需求催生了对更强处理能力和更高数据吞吐量的无尽需求 , 但这也带来了一系列新挑战 , 而这些挑战并非总能找到理想的解决方案 。
这里的关键在于识别复杂芯片和先进封装中可能出现的瓶颈点 , 需要清晰了解在特定工作负载下 , 设计中各元件间数据传输所需的带宽 , 同时还需综合评估数据在处理器、存储器、输入输出设备甚至数据中心服务器机架等多元件间的吞吐量 。
新思科技(Synopsys)接口 IP 产品管理总监普里扬克?舒克拉(Priyank Shukla)指出:
“当客户谈论吞吐量和带宽时 , 有时他们指的是整个集群 —— 即整个网络作为计算集群 , 用于训练大型 AI 模型 。 这些工程团队希望了解集群的吞吐量和集群内不同互连的带宽 , 进而定位瓶颈 。 数据中心包含多个机架单元 , 打开其中一个机架 , 可见机架单元内的处理器通过网络接口卡(NIC)连接到不同机架 , 各个片上系统(SoC)之间也存在连接 。 ”
理解数据流动方式是优化数据传输的核心 。
舒克拉表示:“计算集群公司在训练 AI 模型时 , 会从网络获取大量诊断信息 , 并能精准定位延迟点 。 例如 , 一个大型工作负载被分发到集群中 , 可能由 GPU 或加速器处理 。 但部分工作负载需先通过网络连接的存储设备传输至 GPU:数据从存储设备中提取 , 通过 CPU 的直接内存访问(DMA)功能传输 。 CPU 按顺序运行算法或进程(如第一行、第二行、第三行) , 获取数据块后通过扩展网络传输至某个加速器 , 多个加速器协同处理数据 。 ”
复杂设计中存在数千个互连 。 舒克拉提到:“就数据从存储设备提取的场景而言 , 可能通过以太网经 DMA 传输至 CPU , 或通过扩展网络传输至 GPU 。 所有这些互连的带宽各不相同 —— 例如 , 基于 PCIe 7.x 标准的互连速度为 128 Gbps , 基于以太网的互连单通道速度为 112 或 224 Gbps 。 这些是各个互连的带宽 , 但总吞吐量取决于整个集群的性能 。 ”
图 1:数据中心中解决不同问题的架构 。 来源:新思科技
串行器 / 解串器(SerDes)串行器 / 解串器(SerDes)技术是解决这一问题的关键工具之一 。 它可将并行数据压缩为串行数据传输 , 并在接收端还原 , 从而通过有限的物理通道(引脚)实现高速数据传输 。
Alphawave Semi 产品营销经理托德?贝尔门索洛(Todd Bermensolo)表示:“数据无需通过宽通道即可实现更快传输 , 通过最少引脚实现最大数据吞吐量 , 更具经济性 。 若需高数据吞吐量 , 还可增加引脚数量 。 ”
但这也增加了发送端和接收端的复杂性 。 贝尔门索洛称:“目标是将数据压缩到最少的物理通道中 。 为提升速度 , 发送端需通过多种技术压缩数据 , 接收端则需逆向还原 —— 在实现高速、高效物理传输的同时 , 将数据扩展回低速宽通道格式 。 这一过程随着计算集成的发展而兴起 , 在物理层面变得至关重要 , 因为我们无法随心所欲地用线缆连接所有设备 。 回想 1 Gbps 时代 , 发送端驱动简单接收端即可实现高速传输 , 并行 - 串行转换较为基础 。 但如今我们已实现 100 Gbps 传输 , 过去 15 年里 , 这种简单模式已发展至当前水平 。 接下来将是 200 Gbps , 随后是 400 Gbps 。 对于 AI 应用而言 , 这种速度提升仍迫在眉睫 。 ”
然而 , 这种速度也带来了新问题 。
“在串行器(发送端)和解串器(接收端)上 , 我们增加了发送端的复杂性 , 这可能会消耗更多功率 , ” 他说 , “因此 , 我们寻求更先进的硅工艺节点来缩小芯片尺寸 , 以获取更高性能 , 同时在使用类似线缆的情况下不增加功耗 。 在接收端 , 我们增加了更多处理环节 —— 不再是简单的差分比较 , 可能需要添加增益级、前馈均衡器、判决反馈均衡器等先进均衡技术 , 甚至最大似然序列检测等新方法 。 我们需要维持物理通道性能 , 确保数据能通过 1-5 米的线缆(或千米级的光纤)传输 , 同时保持外形尺寸 。 但如果要让数据传输速度每代翻倍 , 就必须通过更多计算和智能技术来帮助在超高速度下恢复信号 。 ”
缓存片外内存是 AI 训练等数据密集型应用中的常见瓶颈 。 静态随机存取存储器(SRAM)扩展速度不足 , 迫使芯片制造商依赖高带宽内存(HBM)—— 即通过互连中更多数据通道堆叠的动态随机存取存储器(DRAM)—— 作为三级缓存(L3 Cache) 。 尽管这比其他形式的 DRAM 有所改进 , 但速度仍不及 SRAM , 进而形成所谓的 “内存墙” 。
在无需完全采用 3D IC(目前才刚刚开始设计)的情况下 , 仍有提升性能的方法 。 Arteris 产品管理和营销总监里克?拜伊(Rick Bye)表示:“典型的解决方案是使用片上缓存 , 将常用数据存储在速度极快的片上内存中 , 其访问速度比片外 DRAM 快 10 到 100 倍 。 现代 SoC 可能采用分层缓存架构:CPU 核心内嵌入小而快的单周期访问一级缓存(L1 Cache) , 通常分为程序缓存和数据缓存;此外可能有更大、稍慢的二级缓存(L2 Cache) , 用于存储程序和数据;在多核系统中 , 可能有三级缓存(L3 Cache)为多个 CPU 核心服务;此外 , 还可能有末级缓存(LLC)或系统级缓存(SLC) , 供整个 SoC 共享 , 包括 CPU 核心、GPU、NPU、显示处理器和连接摄像头的图像处理器等 。 ”
这在大多数情况下有效 , 但有时需要读取的数据不在片上缓存中(称为 “缓存未命中”) , 此时需访问速度较慢的片外 DRAM 。 拜伊指出:“类似地 , 数据写入(如摄像头数据)可能导致缓存填满速度超过后台向片外 DRAM 写入数据的速度 。 增加 DRAM 通道数量可缓解这一瓶颈 —— 例如 , 将单个片外 DRAM 扩展为四个 , 使 DRAM 带宽提升四倍(但吞吐量未必同比提升) 。 但这仅在数据可通过内存交错均匀分布到所有 DRAM 通道时有效 , 这增加了系统设计的复杂性 。 独立缓存 IP 可用于分层架构中的任何缓存层级(尤其是 LLC/SLC) , 而缓存与片上网络(NoC)结合的 IP 可管理两个或多个处理器共享缓存数据的一致性 , 确保处理器不会读写‘过时’数据 。 ”
多芯片集成随着 AI 数据处理需求的激增 , 将平面 SoC 分解为小芯片(Chiplet)的架构转型 , 使数据移动成为关注焦点 。
Eliyan 战略营销副总裁凯文?唐纳利(Kevin Donnelly)表示:“从片上连线几乎无成本的范式转变为多芯片架构后 , 片上连线纤细密集 , 而跨封装的连线必然更粗且数量有限 , 这限制了小芯片间的数据传输量 。 若两个小芯片之间的连线数量有限 , 就需要尽可能提升它们之间的带宽 。 在标准 UCIe 或‘线束’(Bunch of Wires)接口中 , 每根线单向传输数据 —— 发送端向小芯片传输数据 , 另一端发送端再反向传输数据 。 这是常见模式 , 每根线提供一定带宽 , 但如今我们需要处理的数据量远超以往 。 ”
对于用于训练 AI 模型或高性能计算的芯片 , 这些连线的利用率比过去高得多 。 唐纳利称:“芯片间带宽需求的爆发式增长意味着 , 要么增加连线数量 , 要么提升单根连线的带宽 。 提升单根连线带宽需考虑连接的信号完整性(无论是 SerDes 还是芯片间连接) , 需根据互连距离、电容和电阻 , 结合奈奎斯特速率(Nyquist rate)确定互连中的运行速度 , 进而计算该介质可传输的带宽 。 ”
一种解决方案是让每根线同时双向传输数据 , 在相同互连数量下实现双倍带宽 。 唐纳利比喻道:“这就像每条道路都是双车道 , 而非单向分道行驶 。 在所有物理层(PHY)中 , 数据均需并行输入、串行传输 。 无论是单向还是我们所说的同步双向传输 , 对用户而言并无差异 —— 只是在相同面积下提供了更多并行线 , 因此硅片面积的带宽效率更高 , 其余并无不同 。 一旦采用多芯片架构并需要连接芯片 , 就必须关注高速连接及其信号完整性和电源完整性 , 这些互连的模拟特性远多于数字特性 。 ”
在封装中添加小芯片有助于突破处理时钟速度的限制 , 但也带来其他挑战 。 Alphawave 的贝尔门索洛表示:“从单片集成转向小芯片设计后 , SerDes、计算单元和内存可采用最适合的硅工艺 , 无需在所有模块中使用同一工艺 , 通过小芯片集成即可组合功能 。 但这也引入了新接口 —— 芯片间连接不使用 SerDes , 而是采用 UCIe 等标准 , 这增加了一定复杂性 。 因此 , 尽管多芯片架构解决了部分问题 , 却也带来了新挑战 。 ”
相互交织的挑战单独解决每个问题已颇具挑战(即 SoC 设计中经典的分而治之的思路) , 但在多芯片集成中 , 问题需在设计流程早期同步解决 , 这包括更大规模、更多次数的仿真以映射数据流动 , 以及为设计的前瞻性牺牲部分性能来换取灵活性 。
西门子 EDA(Siemens EDA)Tessent 产品经理维迪亚?尼尔昆达(Vidya Neerkundar)表示:“我们希望走向异构集成 , 即像购买 IP 一样购买小芯片并进行集成 。 整个行业需要共同探索如何实现这一点 。 在 IP 领域 , 通过接口可检查 IP 是否激活 , IP 供应商会提供可运行的测试模式 , 但小芯片目前尚未具备这一体系 , 设计套件正逐步发挥作用 , 我们需要明确最基本的需求 。 ”
建立数据路径是一回事 , 确保其按预期工作则是另一回事 。 尼尔昆达称:“连接方式包括硅通孔(TSV)、中介层(Interposer)、嵌入式多芯片互连桥(EMIB)等 , 选择众多 , 且测试路径与晶圆级测试不同 —— 晶圆级测试使用牺牲性探针焊盘 , 而现在使用硅通孔 。 访问小芯片的路径不同 , 当前有扫描架构(Scan Fabric) , 可视为在小芯片间传输和收集测试数据的‘高速公路’ , 类似总线但功能有限 , 只能实现扫描输出等基本操作 , 用于访问不同小芯片的数据 。 但整个行业需要一个通用解决方案 。 ”
2.5D 或 3D IC 中的吞吐量极为复杂 , 除了需考虑的元件数量 , 还会因工作负载而异 , 并受噪声、热效应等物理因素影响 。
尼尔昆达指出:“组装芯片堆叠时 , 需确保所有环节验证到位 , 信号输入输出正常且建模准确 。 这涉及诸多环节 , 尤其是可能需要协调 150 个不同供应商(从晶圆厂到 TSV 工艺)才能让整个堆叠正常运行 —— 组装可能由第三方完成 , 软件和显微检测也是如此 , 甚至凸点和材料可能来自不同供应商 。 这其中存在诸多变量 。 我相信 , 代理式 AI 至少可以检查连接是否正常 , 为后续步骤奠定基础 。 ”
挑战不仅限于电信号 。 新思科技的舒克拉表示:“通过 UCIe 连接的电子芯片 , 也可能是光子芯片(光子集成电路) 。 这样一来 , 数据传输距离可大幅延长 —— 我们需要 200 Gbps 带宽来实现 1-2 米传输 , 因此接口标准需提升 。 而光子技术提供了高效的接口扩展方式 , 在 UCIe 接口中使用光子技术可延长传输距离 , 这项新技术将相应提升接口密度、总带宽和吞吐量 。 ”
此外 , 在尝试最大化接口密度时 , 还需考虑许多与硅相关的复杂性问题 。 舒克拉称:“例如 , 若元件间距过近 , 需对多通道串扰效应进行建模和分析 。 如果架构师只关注尽可能密集地集成元件 , 而验证流程或签核流程未涉及这些因素 , 那么设计进入量产阶段时将面临挑战 。 ”
所有依赖关系和交互都需要预先考虑 。 Arteris 的拜伊表示:“如果互连没有足够的吞吐量为 CPU 提供所需数据 , 那么即使拥有最新、最快的 CPU 核心和大而快的缓存也毫无意义 。 传统交叉开关互连架构无法随 CPU 和其他 IP 数量的增加而扩展 , 级联小型交叉开关会迅速引入瓶颈 。 解决方案是使用分组化的片上网络(NoC) , 其提供的吞吐量可确保任何 IP 都不会因缺乏数据而停滞 , 或因等待存储已生成的数据而受阻 。 ”
结论优化数据移动一直是一项挑战 , 但如今变得更为艰巨 。
Alphawave 的贝尔门索洛总结道:“从智能手机实时访问数据中心 , 到跨数据中心的 AI 应用 , 系统规模不断扩展 , 尽管许多环节亟待改进 , 但整体性能需从更高维度衡量 。 我们如何通过关注带宽、功耗和延迟来改善这个庞大的宏观问题?这不再是个体体验 , 而是需要原本互不协作的团队沟通与合作 , 因为我们已无法仅凭直觉判断何为成功 。 大型数据中心开发者清楚电费成本 , 也清楚成功的标准 , 他们能将这些标准细化到每个 SerDes 互连或每个小芯片 。 当他们将系统规模扩展百万或十亿倍时 , 下一代开发的关键要素便一目了然 。 ”
对其他参与者而言 , 整合这些环节需要更多工作、更多标准 , 以及与传统上各自为战的团队进行更多互动 。
*声明:本文系原作者创作 。 文章内容系其个人观点 , 我方转载仅为分享与讨论 , 不代表我方赞成或认同 , 如有异议 , 请联系后台 。
想要获取半导体产业的前沿洞见、技术速递、趋势解析 , 关注我们!
推荐阅读
- 三星将与汽车芯片制造商共同开发下一代车载半导体技术
- 中国团队让AI拥有「视觉想象力」,像人类一样脑补画面来思考
- 2025亚马逊云科技中国峰会6月19日上海开幕,聚焦生成式AI全球实践
- 我们能设计、封测3nm芯片,但制造拖后腿,压力给到中芯国际了
- PCIe 5.0 SSD将更便宜:Realtek展示无缓主控芯片
- 国产Top5厂商开始发力:四摄设计+外挂镜头,手机影像迎来新时代!
- 玄戒VS麒麟:中国芯片突围的“双轨战略”价值
- 又一家手机芯片大厂,抛弃三星,不要三星代工芯片了
- 芯片制造告急!三星也撑不住了,要独立晶圆代工部门
- 联合奥拓电子打破国外垄断 中影科技CINITY LED CFL-10首秀
