国家超算中心排名 超算排行榜2023最新排名( 二 )


走向DSA化的超算
从多款产品的发展情况来看 , 集合CPU和GPU的力量在单一芯片上 , 并且拥有诸如统一内存寻址这样的特性成为趋势 。相比传统的PCIe总线连接CPU和GPU而言 , 采用Chiplet技术或者其他的总线连接技术 , 能够极大地缓解数据传输中的带宽瓶颈 。
当然 , 数据在超算中的不断搬运、存储带来的能耗或者对效能的影响是行业所关注的一个方面 , AMD、英伟达和英特尔正在这方面持续努力 。而另一方面的问题 , 可能更值得我们去思考 , 那就是为什么三大厂商都开始利用Chiplet技术(或者类似的设计)将CPU和GPU集成在一起?在CPU向多核形态发展之后 , 下一步是什么?
这样的趋势在桌面PC上可能刚刚开始出现 , 比如我们的CPU核心才刚开始有最多32个 , 即使线程撕裂者这样本来面向给服务器市场的处理器 , 其核心数量也多在64~96个 。而在异构类型的超级计算机没有广泛普及之前 , 一整套超算往往会有数万到数十万个CPU 。如此多的CPU在很大程度上极大地提升了超算的性能 , 但是随着CPU数量不断提升 , 新的问题出现了 。
一方面是CPU数量上升到一定程度后 , 边际效应开始显现 , 继续增加CPU数量带来的性能提升不再是线性提升 。这涉及很多问题 , 比如CPU中计算单元数量相对较少、超多的CPU核心在编程上存在困难等 。
另一方面 , 更多的CPU带来了性能功耗比的下降 , 从而导致超算功耗变得越来越大 , 甚至难以控制 。与之相应的是超算本身的功耗、散热所需功耗等叠加起来 , 使得相应产品的制造难度和使用成本变得难以控制 。因此从超多核心CPU到异构超算 , 再到超算下一步的发展方向 , 我们恐怕需要从三个定律来了解一二 。
三大定律解读
首先是摩尔定律 。很难否认 , 摩尔定律带来了几乎规律增长和看似无限的晶体管资源 , 使得人们对晶体管资源的使用效率开始逐渐降低 。麻省理工团队做过一个有关现在集成电路效率的实验 , 发现在Python这样的人们经常能接触到的高级语言上运行矩阵乘法 , 性能是1的话 , 用C语言重写后 , 性能可以提升到50 。如果充分挖掘整个处理器微架构的内容 , 比如循环并行化、访存优化 , 使用SIMD等 , 性能可以提升到最高63000 。这意味着 , 随着微架构越来越复杂 , 人们在应用端出了很多问题 , 很难使用如此复杂和有深度的微架构的全部资源 。
在这种情况下 , 人们开始使用定制的硬件来执行那些经常使用 , 又对性能影响很大的计算 , 这就是我们多次提到的DSA 。通用架构和领域内专属微架构的差别在于 , 通用架构往往比较庞大 , 整体效率在计算不同类型操作的时候 , 相对来说以高效率且可完成不同类型的任务和计算为目的 。而DSA则不考虑非领域内的其他操作 , 整体设计以提高领域内某项专属计算的效率为主 。这就造成了DSA硬件相对通用计算硬件几十倍乃至上万倍的性能提升 。
对CPU而言 , 在超算中加入GPU也是一种类型的DSA化 。从设计CPU的角度来说 , 1个CPU微架构中 , 用于真正计算的ALU、FPU等单元所占用的晶体管数量是非常少的 , 大部分晶体管都用于逻辑处理、缓存等部分 。因此 , CPU在计算能力方面 , 如果增加CPU数量的话 , 增加的更多是缓存和逻辑控制部分 , 实际的计算部分增加并非很多 。因此 , 在这种情况下 , 人们使用计算部分较多、但是逻辑部分较弱的GPU加入其中 , 对大量并行的数据进行处理 , 就获得了非常不错的加速效能 。

推荐阅读