特斯拉Dojo超算突破故障检测技术

特斯拉Dojo超算突破故障检测技术

文章图片


无需离线 , 特斯拉就可以检测出故障的处理器核心 。
在大型处理器上检测故障并禁用是一项很具挑战的工作 , 不过特斯拉开发了Stress 工具 , 该工具不仅可以检测 Dojo处理器中容易出现静默数据损坏的内核 , 还可以检测具有数百万个内核的 Dojo 集群中容易出现静默数据损坏的内核 , 而且无需离线 。 这是一项非常重要的功能 , Tesla表示 , 单个静默数据错误就可能毁掉需要数周才能完成的整个训练过程 。
特斯拉 Dojo 是目前最大的两个处理器之一 。 这些大规模晶圆级芯片使用整个 300 毫米晶圆 , 这意味着根本不可能一次性创建更大的计算能力 。 每个Dojo晶圆级处理器最多包含 8850 个内核 , 但其中一些内核可能会在部署后诱导静默数据损坏 (SDC) , 从而破坏大量训练运行的结果 。
大型处理器的缺陷识别鉴于Dojo Training Tile(大型晶圆尺寸的芯片)极其复杂 , 即使在制造过程中也不容易检测到有缺陷的芯片 , 因此 , 如果涉及到SDC , 事情就变得更加复杂了 。
SDC 在所有类型的硬件上都是不可避免的 , 但 Dojo 处理器电流消耗为18000安培 , 功耗大15000W , 这是有影响的 。 因此 , 所有内核都应按预期运行 , 否则AI训练将变得更加复杂 , 由数据损坏导致的单个错误可能会让数周的 AI 训练白费 。

特斯拉将每个晶圆级 Dojo 处理器称为“训练块” 。 每个训练块包含 25 个 645 平方毫米 D1“芯片” , 这些芯片具有 354 个定制的 64 位 RISC-V 内核 , 配备 1.25 MB SRAM 用于数据和指令 , 这些内核以 5×5 集群的形式组织 , 并使用具有 10 TB/s 定向带宽的机械网络互连 。
每个 D1 还支持 4 TB/s 的片外带宽 。 因此 , 每个“训练块”包含 8850 个内核 , 支持 8 位、16 位、32 位或 64 位整数以及多种数据格式 。 特斯拉使用台积电的 InFO_SoW 技术封装其晶圆级 Dojo 处理器 。
差分模糊测试技术为了解决核心故障的风险 , 特斯拉研发了差分模糊测试技术 。 这个初始版本需要生成一组随机指令 , 并将相同的序列发送到所有内核 。 执行后 , 比较输出以查找不匹配 。 由于主机和 Dojo训练块之间存在巨大的通信开销 , 因此该过程花费的时间太长 。
为了提高效率 , 特斯拉通过为每个内核分配一个由 0.5 MB 随机指令组成的唯一有效载荷来改进该方法 。 核心不是与主机通信 , 而是在 Dojo 训练块中相互检索有效负载并依次执行 。 这种内部数据交换利用了训练块的高带宽通信 , 能够在更短的时间内测试4.4 GB的指令 。
特斯拉进一步增强了该方法 , 允许内核多次运行每个有效载荷 , 而无需在每次运行之间重置其状态 。 这项技术为执行环境引入了额外的随机性 , 能够查找到此前无法检测到的细微错误 。 尽管执行次数有所增加 , 但与检测可靠性的提升相比 , 速度下降的影响是微不足道的 。
还有一个改进是使用 XOR 运算定期将寄存器值集成到指定的 SRAM 区域 , 这将识别有缺陷的计算单元的概率提高了 10 倍(在已知有缺陷的内核中进行测试) , 而不会显著降低性能 。
不仅在处理器级别特斯拉的方法不仅适用于 Dojo 训练模块级别或 Dojo Cabinet 级别(包含 12 个 Dojo 训练模块) , 还适用于 Dojo Cluster 级别 , 即从数百万个活动核心中识别出故障核心 。
经过适当调整后 , Stress 监控系统就可以在Dojo集群中发现大量存在缺陷的核心 。 不过 , 检测时间的分布差异很大 。 大多数缺陷是在每个核心执行 1 GB 到 100 GB 的有效载荷指令后发现的 , 相当于几秒到几分钟的运行时间 。 更难检测的缺陷可能需要 1000 GB 以上的指令 , 这意味着需要几个小时的执行时间 。
值得注意的是 , 特斯拉的Stress工具是轻量级且独立于核心内部 , 因此可以在后台进行测试 , 无需离线 。 并且只有被识别为故障的核心才会被禁用 。 同时 , 每个D1芯片都能容忍少数核心被禁用 , 而不会影响整体功能 。
识别设计缺陷除了检测故障核心外 , Stress工具还发现了一个罕见的设计级缺陷 , 工程师们通过软件调整设法解决了该缺陷 。 在更广泛地部署监控系统的过程中 , 还发现并纠正了低级软件层中的几个问题 。
到目前为止 , Stress工具已完全集成到Dojo集群中 , 用于在AI训练期间对正在进行的硬件运行状况进行现场监控 。 特斯拉表示 , 通过此次监控观察到的缺陷率与 Google 和 Meta 发布的缺陷率相当 , 这表明监控工具和硬件与其他公司使用的水平相当 。
目前特斯拉计划利用Stress工具获得的数据来研究硬件因老化而导致的长期性能下降 。 此外 , 该公司还计划将该方法扩展到硅片投产前的测试阶段和早期验证工作流程 , 以便在生产前就能发现上述故障 。
特斯拉预计推出AI芯片Dojo 2据报道 , 特斯拉目前正在准备下一代的AI芯片Dojo 2 。
在去年AI峰会上 , 马斯克透露Dojo 2将在今年年底开始量产 , 将在特斯拉的AI基础设施上发挥关键作用 。
值得注意的是 , 马斯克此前谈及Dojo 2的性能称 , 预计在一定程度上能媲美英伟达的B200 。 不过在Dojo的性能上 , 马斯克是认为技术通常需要三代主要的迭代才能真正实现卓越 , 因而外媒也认为评估Dojo系列芯片的优越性 , 可能要等到Dojo 3 , 这一芯片预计会在2026年年底推出 。
相关消息指出 , 特斯拉的Dojo芯片是由台积电代工 , 虽然目前还不清楚Dojo 2是否会继续由台积电代工 , 但考虑到台积电制程工艺领先且有庞大的产能支持 , 特斯拉可能仍会交由他们代工 。
*声明:本文系原作者创作 。 文章内容系其个人观点 , 我方转载仅为分享与讨论 , 不代表我方赞成或认同 , 如有异议 , 请联系后台 。
【特斯拉Dojo超算突破故障检测技术】想要获取半导体产业的前沿洞见、技术速递、趋势解析 , 关注我们!

    推荐阅读