400万人围观的分层推理模型,分层架构不起作用?性能另有隐情?

400万人围观的分层推理模型,分层架构不起作用?性能另有隐情?

文章图片

400万人围观的分层推理模型,分层架构不起作用?性能另有隐情?

文章图片

400万人围观的分层推理模型,分层架构不起作用?性能另有隐情?

文章图片

400万人围观的分层推理模型,分层架构不起作用?性能另有隐情?

文章图片

400万人围观的分层推理模型,分层架构不起作用?性能另有隐情?

文章图片

400万人围观的分层推理模型,分层架构不起作用?性能另有隐情?

文章图片

400万人围观的分层推理模型,分层架构不起作用?性能另有隐情?

摘自ARC PRIZE
作者:ARC PRIZE TEAM
机器之心编译

还记得分层推理模型(Hierarchical Reasoning Model , HRM)吗?

这项工作于 6 月份发布 , 当时引起了不小的轰动——X/Twitter 上的相关讨论获得了超过 400 万的浏览量和数万个点赞 , 剖析这项工作的 YouTube 视频观看量也超过了 47.5 万次 。



在论文中 , 作者表示:他们提出了一种受大脑启发的 HRM 架构 , 仅用 1000 个训练任务和一个 2700 万参数(相对较?。 ┑哪P?, 就在 ARC-AGI-1 基准上取得了 41% 的得分 。

论文还指出 , 这一架构有潜力成为迈向通用计算和通用推理系统的变革性进展 。

鉴于该方法的普及度和新颖性 , 来自 ARC PRIZE 团队的研究者着手在 ARC-AGI-1 半私有数据集(一个用于验证解决方案是否过拟合的隐藏保留任务集)上验证 HRM 的性能 。

他们的发现有些出人意料 。

首先:他们能够近似复现论文中声称的数字 。 HRM 在 ARC-AGI 半私有集上的表现 , 就其模型大小而言 , 令人印象深刻:

ARC-AGI-1:32%——虽然不是 SOTA 水平 , 但对于如此小的模型来说 , 这已经非常出色 。
ARC-AGI-2:2%——尽管得分大于 0% 显示出一些积极信号 , 但 ARC PRIZE 团队不认为这在 ARC-AGI-2 上取得了实质性进展 。
与此同时 , 通过运行一系列消融分析 , 他们得到了一些令人惊讶的发现 , 这些发现对围绕 HRM 的主流论述提出了质疑:



与同等规模的 Transformer 相比 , 其「分层」架构对性能的影响微乎其微 。然而 , 论文中相对提及较少的「外循环」优化过程 , 尤其是在训练期间 , 极大地提升了性能 。跨任务迁移学习的益处有限;大部分性能来自于对评估时所用特定任务解决方案的记忆 。预训练的任务增强至关重要 , 尽管只需 300 次增强就已足够(而非论文中报告的 1000 次) 。 推理时的任务增强影响有限 。
发现 2 和 3 表明 , 该论文的方法在根本上与 Liao 和 Gu 提出的「无预训练的 ARC-AGI」方法相似 。

有人认为 , ARC PRIZE 团队的这些分析结果表明 , HRM 是一个失败的探索 。



但更多人反驳说 , 与在同一基准上表现类似的模型相比 , HRM 要小得多 。 虽然分层架构的作用没有得到验证 , 但论文在其他方面的创新依然值得研究 , 毕竟模型的表现还是很好的 。




针对这一分析 , ARC PRIZE 团队专门写了一篇博客来详细介绍 。 以下是博客内容 。



博客地址:https://arcprize.org/blog/hrm-analysis Github:https://github.com/arcprize/hierarchical-reasoning-model-analysis
「分层推理模型」回顾

图 1:HRM 方法从大脑中不同频率的信号处理中汲取灵感 。

分层推理模型由新加坡 AI 研究实验室 Sapient 发表 , 据称其灵感来源于人脑的分层和多时间尺度处理机制 。

HRM 是一个 2700 万参数的模型 , 它通过几次简短的「思考」脉冲进行迭代优化 。

每次脉冲产生:

一个预测输出网格——这是模型对 ARC-AGI 任务的「处理中」预测 。 一个「停止或继续」得分——该得分决定是继续优化预测还是将其作为最终结果提交 。
如果模型选择继续优化 , 这个「处理中」的预测会再次经过一个「思考」脉冲 。 这就是外循环:预测、询问「我完成了吗?」 , 然后停止或继续优化 。

在外循环内部 , HRM 运行两个耦合的循环模块:「H」(慢速规划器)和「L」(快速执行器) 。 这两个模块协同工作 , 共同更新一个共享隐藏状态 , 而非各自产生独立的输出 。 其最终效果是模型在「规划」(H)和「细节」(L)之间交替进行 , 直到内部状态「自我达成一致」并产生答案 。

该模型使用一个学习到的「停止」信号 , 这是一种自适应计算机制 , 用于控制优化的次数 。

这个过程的一个关键部分是任务增强 。 这是一个对每个任务应用变换(如对象旋转、翻转等)的过程 , 目的是挖掘出任务的潜在规则 , 而不是对特定的形状或颜色产生过拟合 。

在测试时 , 模型会运行相同的增强来生成预测 。 这些预测随后被「去增强」(以恢复到原始任务格式) , 然后通过简单的多数投票来决定最终的预测结果 。

预测是通过转导(深度学习的直接输出)在嵌入空间中进行的 , 而不是通过归纳(生成一个可应用变换的程序) 。 关于 ARC-AGI 中转导与归纳的更多信息 , 请参阅 2024 年 ARC Prize 获奖论文《结合归纳与转导进行抽象推理》 , 作者为 Wen-Ding Li 等人 。

ARC-AGI 验证流程
ARC-AGI 基准有 3 个主要的数据集用于测试:

公开训练集 - 用于介绍 ARC-AGI 数据格式的公开数据 。 研究人员在此数据上训练和迭代模型 。 公开评估集 - 供研究人员在训练后自我评估模型性能的公开数据 。 半私有评估集 - 一个保留数据集 , 用于验证在 ARC-AGI 上的声明 。 该数据集无法在线获取用于训练 , 从而增加了其提供模型性能纯净信号的可信度 。 它被称为「半私有」 , 因为验证第三方服务(如来自 OpenAI、xAI 的模型)意味着我们无法保证数据永远完全保密 , 并且计划最终会替换它 。
除了这些数据集类型 , ARC-AGI 目前有 2 个已发布的版本:

ARC-AGI-1——2019 年 , 旨在挑战深度学习系统 。 ARC-AGI-2——2025 年 , 旨在挑战推理系统 。
我们根据测试政策 , 对像 HRM 这样的特定定制解决方案进行测试 。 要获得验证资格 , 解决方案必须开源 , 运行成本低于 1 万美元 , 并在 12 小时内完成 。

官方验证的 HRM ARC-AGI 得分

图 2:ARC-AGI-1 排行榜 , HRM 性能与每项任务成本 。

ARC-AGI-1(100 个任务)

得分:32% , 运行时间:9 小时 16 分钟 , 总成本:$148.50($1.48 / 任务)
在 ARC-AGI-1 上获得 32% 的得分 , 对于如此小的模型来说是令人印象深刻的 。 从 HRM 声称的公开评估集得分(41%)下降到半私有集得分 , 这种轻微的下降是预料之中的 。 ARC-AGI-1 的公开集和半私有集并未进行难度校准 。 观察到的 9 个百分点的下降幅度处于正常波动的偏高范围 。 如果模型对公开集过拟合 , 其在半私有集上的性能可能会崩溃(例如 , 降至 10% 或更低) 。 但我们并未观察到这种情况 。 这个结果表明 , HRM 确实有一些值得关注的亮点 。

注意:运行 HRM 的成本相对较高 , 是因为训练和推理被耦合在单次运行中 。 论文作者提到他们正在努力解耦这个过程 , 以便将其解决方案提交给 ARC Prize 2025 Kaggle 竞赛 。

ARC-AGI-2(120 个任务)

得分:2% , 运行时间:12 小时 35 分钟 , 总成本:$201($1.68 / 任务)
ARC-AGI-2 明显比 ARC-AGI-1 更难 , 因此性能大幅下降是预料之中的 。 与 ARC-AGI-1 不同 , ARC-AGI-2 的公开集和半私有集是经过难度校准的 。 原则上 , 两者上的得分应该相似 。 尽管大于 0% 的得分显示出模型的某些能力 , 但我们不认为 2% 的得分是在 ARC-AGI-2 上取得的有意义的进展 。

注意:我们选择包含 10 个可选的检查点(每个约 5 分钟) , 总共增加了约 50 分钟 。 虽然 HRM 的提交超出了 12 小时的运行限制 , 我们仍然认为它是有效的 。

分析 HRM 对 ARC 得分的贡献
在更深入的分析中 , 我们最想回答的问题是:「HRM 架构中对 ARC-AGI 的成功贡献最大的关键组件是什么?」

我们仔细研究了 HRM 论文的 4 个主要组成部分:HRM 模型架构、H-L 分层计算、外层优化循环 , 以及数据增强的使用 。 Ndea 研究员 Konstantin Schürholt 主导了这项分析 。

我们测试了:

「分层」H 和 L 循环的性能贡献
相比于基础的 Transformer , HRM 提供了多少性能提升?
改变分层计算的参数有何影响?

改变最大「停止或继续」循环次数
自适应计算时间(ACT)评分器与固定循环次数(没有停止决策)相比表现如何?

跨任务迁移学习的影响
与仅在评估任务上训练相比 , 在训练时加入训练集任务和 ConceptARC 任务有何影响?

增强数量
改变从每个任务创建的增强数量 。

模型/训练的变体(大小和时长)
发现 1: 与同等规模的 Transformer 相比 ,「分层」架构对性能的影响微乎其微
论文提出 , HRM 架构是实现分层推理的关键——结合了慢节奏的指导(H-level)和快节奏的思考(L-level) 。

为了理解该架构的影响 , 我们进行了 2 个实验:

改变分层组件中的迭代次数 。 将 HRM 模型替换为类似规模的 Transformer 。
为便于比较 , 该 Transformer 拥有与 HRM 模型相同的参数数量(约 2700 万) 。 在所有实验中 , 我们保持 HRM 流程的其他所有组件不变 。

将 HRM 与常规 Transformer 进行比较 , 得到了两个有趣的结果 , 见图 3 。 首先 , 一个常规的 Transformer 在没有任何超参数优化的情况下 , 性能与 HRM 模型相差约 5 个百分点 。 当只有一个外循环时 , 差距最小 , 此时两个模型的性能不相上下 。


图 3:HRM 模型和相同尺寸的 Transformer 在不同外循环步数下的 pass@2 性能 。 Transformer 在没有任何超参数优化的情况下 , 性能与 HRM 相差几个百分点 。

当外循环次数多于 1 次时 , HRM 表现更好 , 但随着外循环次数的增加 , 差距会缩小 。 请注意 , 尽管参数数量匹配 , HRM 使用了更多的计算资源 , 这可能部分解释了性能差异 。 增加计算资源带来的好处可能会随着外循环次数的增多而出现收益递减 , 这与我们的结果相符 。

我们进一步改变了 H-level 和 L-level 的步数来分析其影响 。 我们发现 , 增加或减少迭代次数(基线为 L = 2 H = 2)都会导致性能下降 。

这些结果表明 , 在 ARC-AGI 上的性能并非 HRM 架构本身带来的 。 虽然它确实提供了一点好处 , 但在 HRM 训练流程中换用一个基线 Transformer 也能达到相当的性能 。

发现 2: 论文中提及较少的「外循环」优化过程 带来了显著的性能提升
除了分层架构 , HRM 论文还提出在模型外部使用一个外循环(「循环连接」) 。 这将模型的输出反馈给自己 , 允许模型迭代地优化其预测 。

此外 , 它使用「自适应计算时间」(ACT)来控制在特定任务上花费的迭代次数 。 ACT 决定是停止预测还是继续优化 。

HRM 方法的这一部分类似于 Universal Transformer , 后者既有围绕 Transformer 模型的循环优化循环 , 也有一个 ACT 的版本 。

在我们的第二组实验中 , 我们想了解外层优化循环以及 ACT 对整体性能的影响 。 我们改变了训练期间的最大外循环次数 , 并在推理时使用最大循环次数(遵循 HRM 的实现) 。


图 4:在不同数量的训练和推理优化循环下的 pass@2 性能 。 通过迭代优化数据会产生强大的影响 , 正如从 1 次循环(无优化)到 2 次循环(1 次优化)的性能飞跃所示 。

如图 4 所示 , 外循环的次数对模型性能有显著影响——从无优化(1 次循环)到仅 1 次优化 , 性能跃升了 13 个百分点 。 从 1 次优化循环增加到 8 次 , 公开评估集上的性能翻了一番 。

一个次要发现是 , 在训练期间使用 ACT 确实能减少每个任务的实际优化步数 。 然而 , 虽然使用 ACT 能提高性能 , 但与固定的 16 次循环运行相比 , 差异仅在几个百分点之内 。

结果表明 , 优化外循环是 HRM 性能的关键驱动力 。

为了理解训练时优化与推理时优化的影响 , 我们进一步独立地改变了推理优化循环的次数 。


图 5:在不同数量的推理优化循环下的 pass@2 性能 。 蓝色条表示使用相同循环次数进行训练和推理的模型 。 橙色条表示使用 16 个优化循环训练 , 但在推理时使用不同循环次数的模型 。 例如 , 1-Loop 处的蓝色条表示用一个优化步骤训练并用一个优化步骤推理的模型 。 橙色条表示用 16 个优化步骤训练但仅用一个优化步骤推理的模型 。

为此 , 我们比较了两种设置 。 第一种 , 我们在训练和推理中使用相同数量的优化循环 。 第二种 , 我们用最多 16 个优化循环步骤训练一个模型 , 并分别用 1、4、8 和 16 个优化步骤来评估它 。

比较这两类模型显示出实质性差异 , 尤其是在低推理优化步数(1 和 4)时 , 见图 5 。 用更多的优化步骤进行训练 , 可以将单次优化循环预测的性能提高超过 15 个百分点 , 尽管一次循环意味着没有任何优化的单次前向传播 。 在推理时增加更多的优化循环 , 影响则没有那么大 。 这表明 , 带优化的训练比在推理时使用优化更重要 。

发现 3: 跨任务迁移学习的影响有限
在原始论文中 , HRM 在 960 个任务的演示对的增强版本上进行训练:

来自 ARC-AGI-1 训练集的 400 个任务 。 来自密切相关的 ConceptARC 基准的 160 个任务 。 来自 ARC-AGI-1 评估集的 400 个任务 , 这些任务也是评估时要解决的目标 。
需要注意的是 , 这并不意味着数据泄露 , 因为模型在训练时从未看到评估任务的测试对——而这正是模型被评估的内容 。

我们想了解跨任务迁移学习与推断并记忆评估时特定任务的解决方案相比 , 其影响如何 。 我们进行了以下实验:我们只在 400 个评估任务上进行训练——去掉了来自训练集的 400 个任务和来自 ConceptARC 数据集的 160 个任务 。

在这种设置下 , 模型达到了 31% 的 pass@2 准确率 , 与最初的 41% 相比仅有小幅下降 。 这表明 , 绝大部分性能是由在评估时见过的任务上进行训练所驱动的 。 这意味着 HRM 的做法本质上是一种零预训练的测试时训练方法 , 类似于 Liao 和 Gu 的「无预训练的 ARC-AGI」 。 这相当于将模型用作一种程序合成基底——在任务的演示对上使用梯度下降 , 将执行该任务的程序编码到模型的权重中 。

值得注意的是 , 在我们的实验中 , 仍然存在一定程度的跨任务迁移学习——在评估集的不同任务之间 。 我们实验的一个更强的版本是 , 在每个评估任务上单独运行 HRM 流程 , 这样模型在训练时只会看到它将被评估的那一个任务的演示对的增强版本 。 这将使 HRM 的设置与 Liao 和 Gu 的设置完全一致 。 我们没有时间运行这个实验 , 但我们推测结果将与 Liao 和 Gu 的(21% pass@2)非常接近 。

发现 4: 预训练的任务增强至关重要
我们研究的 HRM 流程中另一个重要组成部分是任务增强 。

数据增强是深度学习中一种常用方法 , 用于增加数据集中的样本数量并提高模型的泛化能力 。 这意味着对任务应用旋转、翻转或颜色交换 , 从而在不改变任务基本概念的情况下生成新数据 。

HRM 对任务的所有增强版本进行预测 , 然后将增强后的预测还原(或「去增强」) , 使其恢复到原始任务格式 。 然后 , 模型对这些预测进行多数投票以选出最终候选 。

我们测试了对基线 HRM 的以下修改:

编译数据集时最大增强的数量 。 用于多数投票的最大预测数量 。
因为 HRM 只能处理训练期间遇到过的增强类型 , 所以我们在推理时对第 2 点的改变仅限于减少增强数量 , 而不能增加 。

图 7 中的结果显示了两个趋势 。 首先 , 使用数据增强确实能显著提高性能 。 然而 , 仅使用 300 次增强 , 而不是论文中使用的 1000 次 , 就已接近最大性能 。 仅使用 30 次增强(论文中总数的 3%)的性能与最大性能相差不到 4% 。

其次 , 在训练期间使用数据增强似乎比为多数投票获得更大的池子更重要 。 用更多增强训练的模型 , 在用较小池子进行推理时 , 性能下降得要少得多 。

其他技术性学习
深入研究 HRM 的内部机制还带来了一些其他有趣的发现 。

首先也是最重要的一点 , HRM 将 ARC-AGI 任务分解为单个的输入-输出对 , 他们称之为谜题(puzzles) 。 每个谜题会获得一个 puzzle_id , 它由任务哈希值和应用于此特定谜题的增强代码组成 。

在训练和推理时 , 模型只接收输入和 puzzle_id——没有包含任务其他输入-输出示例的少样本上下文 。 HRM 模型必须学会将一个 puzzle_id 与一个特定的转换关联起来 , 以便它能从输入预测输出 。

为此 , 它将 puzzle_id 输入一个大的嵌入层 。 这个嵌入层是关键——没有它 , 模型就不知道如何处理输入 。 这带来了一个主要限制:该模型只能应用于它在训练时见过的 puzzle_id 。

在与作者就此话题的交流中 , 他们解释说 , 为少样本上下文更改谜题嵌入是一个复杂的工程挑战 。 在早期版本中 , 他们做过比较 , 发现在更大的类 ARC 数据集上 , 少样本上下文效果很好 , 但在样本受限的 ARC 上 , 谜题嵌入的表现明显更好 。 我们没有复现这些实验 , 但这为未来的工作指明了有趣的方向 。

出于同样的原因 , 在这个版本的 HRM 中 , 推理数据必须是训练数据集的一部分 。 例如 , 独立地改变增强数量并不是一件直接的事情 。

最后 , 虽然优化循环对性能有明显影响 , 但 HRM 是纯粹转导性的 。 虽然可以展开优化步骤 , 但底层的程序仍然是隐式的 。 我们的假设是 , 这种方法不具备泛化能力 。

待解决的问题与未来工作
我们对 HRM 的实验为我们揭示了其在 ARC-AGI 上表现出色的原因 , 但其他问题依然存在 。 除了上面提到的 , 我们还邀请社区探索以下更多问题:

puzzle_id 嵌入对模型性能有多大影响?与将任务中的其余示例作为上下文提供相比如何?
HRM 在其训练数据之外的泛化能力如何?是否有任何方法可以在新数据上微调 HRM?
在推理时 , 学习到的停止机制有何影响?其好处仅限于节省计算资源 , 还是也能提高性能?
优化的思想是否能推广到其他方法 , 例如合成显式程序的归纳方法?
通过在每个评估任务上单独进行训练和评估 , 可以达到什么样的性能?(消除所有跨任务迁移学习 。 )
哪些特定的增强类型能带来更高的性能?旋转?颜色交换?为什么?
结语
来自 ARC Prize 的分析非常详尽 , 不少人感叹说 , 这才是真正的「同行评审」 。



还有人说 , 这个分析本身和论文一样重要 。 如果大家以后能够更多地用这种方式去分析一些备受关注的研究 , 相信社区可以更加高效地获取一些新知识 。


【400万人围观的分层推理模型,分层架构不起作用?性能另有隐情?】

    推荐阅读