Hierarchical Reasoning Model

https://arxiv.org/abs/2506.21734

关键思想:

  • HRM在单次前向传递中执行顺序推理任务,无需对中间过程进行显式监督
    • 两个相互依赖的循环模块 (two interdependent recurrent modules)
      • 高层模块 (high-level module) 负责缓慢、抽象的规划
      • 低层模块 (low-level module) 处理快速、详细的计算

背景知识

Transformer模型本身由一个有限(常数)数量的层组成,每层包含多个注意力头(Attention Heads)和一个前馈网络(Feed-Forward Network) 。这个层的数量(例如12层)是固定的,它不随输入句子的长度$n$变化。论文《Average-Hard Attention Transformers are Constant-Depth Uniform Threshold Circuits》的核心在于证明:Transformer模型中的每一个操作,即使是复杂的注意力机制,都可以被$TC^0$电路家族模拟

  • $TC^0$电路无法解决需要 多项式深度(Polynomial Depth) 的复杂顺序推理问题,例如许多需要复杂逻辑、计数和无限长推理链的问题。
  • 这就是为什么有人认为Transformer——尽管它在实践中非常强大,但在理论上,它的计算深度被限制在了一个非常低且不变的复杂度类$TC^0$中,这给它最被期望的能力——复杂推理——设置了一个基础的理论上限 。

更进一步 $TC^0$ 局限性在于:多项式时间 (Polynomial Time, $P$) 是指解决一个问题所需要的计算步骤随着输入规模 $n$ 以多项式 (如 $n^2$, $n^3$)增长。很多我们认为需要 “算法” 来解决的问题都在这个类别中,例如排序、最短路径等。而 $TC^0$ 的能力严格弱于$P$ 。 这意味着,任何需要真正多项式时间算法才能解决的问题,Transformer从理论上都无法完美解决

另外一点:LLM不具有图灵完备性 (Turing-completeness)。图灵完备性是指一个系统(如编程语言或者计算机)能够模拟任何图灵机,也就是执行任何算法。图灵完备的系统必须具有循环、条件判断或者无限内存等能力。Transformer时一个固定的前馈网络,接受输入,经过固定的层数计算,然后输出结果。它无法根据输入动态地决定“再循环计算次数”或者“创建一个新的变量来存储中间结果”。因此LLM无法执行通用的算法。这就意味着对于需要严谨算法步骤的任务,比如深思熟虑的规划(如制定一个多步骤,有依赖关系的复杂计划)或者符号操作(如解代数方程),LLM无法像传统计算机程序那样可靠地执行。它智能通过模式匹配来“模仿”这些过程,不是真正的“执行”

  • 数独(Sudoku)作为例证: 数独是一个绝佳的测试案例。解决数独需要严格的逻辑推理和约束满足,这是一个典型的算法问题。它不是一个模糊的语言模式匹配任务。
    • 实验结果: 研究发现,即使把Transformer的层数(物理深度)增加很多,它在解决数独问题上的表现虽然有所提升,但远未达到完美,并且会很快遇到性能瓶颈。
  • 对“缩放范式”的挑战: 这个结果直接挑战了“只要模型越大、数据越多,能力就越强”(即缩放范式,Scaling Paradigm)的信念。它表明,对于某些类型的推理问题,简单地“缩放”模型规模可能无法克服其底层的架构限制。模型的性能提升可能只是因为它记住了更多解题模式,而不是学会了通用的解题算法。

为了提高LLM的这种解决复杂问题的能力,大多数都依靠 CoT(Chain-of-Thought)。

  • CoT主要是通过外化推理 (externalizes reasoning)– 也就是说土里并不是在模型内部一个抽象的逻辑空间发生的。而是模型把“思考”的过程写出来,变成文字。
  • 具体而言:CoT通过将复杂任务分解为更简单的中间步骤,并使用一个浅层模型(也就是Transformer-based LLM)顺序地生成文本,从而将推理过程外化为词元级别的语言。然而,用于推理的CoT是一个‘拐杖’,而非一个令人满意的解决方案。它依赖于脆弱的、由人类定义的分解方式,其中任何一个步骤的错误或顺序错乱都可能让整个推理过程完全脱轨。这种对明确语言步骤的依赖,将推理束缚在了词元级别的模式上。其结果是,CoT推理通常需要大量的训练数据,并在处理复杂推理任务时生成海量词元,导致响应时间缓慢。我们需要一种更高效的方法来最小化这些数据需求。

那么Hierarchical Reasoning Model是如何做的?HRM模型本质在于探索其内在的抽象逻辑空间(latent reasoning)

未完待续…