1500美元训出1B模型，HuggingFace CEO和Bengio团队为何同时关注HRM？

2026/06/13 20:40阅读量 2

Sapient Intelligence 发布 HRM-Text，一个参数量约 1B、训练成本约 1500 美元的推理模型，在 MATH、GSM8K 等基准上表现突出。该模型采用高层-低层双时间尺度递归架构（HRM），强调在潜空间中进行分层递归推理，而非依赖更长的思维链。HuggingFace CEO 转发推荐，Bengio 团队参与的 GRAM 论文也复用类似架构。HRM-Text 验证了通过改变计算结构而非堆叠参数提升推理能力的新路线。

事件概述

Sapient Intelligence 发布 HRM-Text，一个从零预训练、参数量约 1B、训练成本约 1500 美元的小模型。该模型在多个推理基准上表现优异：MATH 56.2、GSM8K 84.5、ARC-Challenge 81.9、DROP 82.2。HuggingFace CEO Clem Delangue 亲自转发推荐，图灵奖得主 Yoshua Bengio 作为共同作者参与的 GRAM 论文也走向了相同的潜空间递归推理路线。

核心信息

架构核心：分层递归推理（HRM）

标准 Transformer 是逐层一次处理，HRM 在模型内部设置两个不同节奏的模块：高层模块 H（慢更新，负责全局方向）和低层模块 L（快更新，负责局部细节）。两者在同一个潜空间中反复更新内部状态，实现输出前的多轮内部递归计算。
训练损失只计算回答部分（instruction 不计算损失），配合 PrefixLM attention mask，让训练信号更集中于任务完成。
引入 MagicNorm 和 warmup deep credit assignment 解决递归训练不稳定的问题。

关键数据

训练数据仅约 40B unique tokens（考虑重复采样共 60B tokens），而 Llama 3.2 3B 使用 9T tokens，Qwen3 2B 使用 36T tokens，分别是 HRM-Text 的 225 倍和 900 倍。
在相同训练 FLOPs 条件下，ARC-Challenge 从 51.9 提升到 81.9，MATH 从 35.4 提升到 56.2，GSM8K 从 48.4 提升到 84.5。
Sapient 进行了严格的训练数据污染分析，在 clean split 下仍保持优势。

与 GRAM 的关系

Bengio 团队的 《Generative Recursive Reasoning》（GRAM） 在核心计算骨架上高度复用了 HRM 的设计：高层状态、低层状态、双时间尺度、潜空间递归、输出前内部计算。GRAM 在此基础上增加了概率生成模块，形成多轨迹生成式推理框架。

意义与展望

HRM-Text 不是“小模型逆袭”，而是证明模型能力增长除了参数、数据、算力之外，还存在另一个变量——计算结构。它让基础模型研发重新出现“非规模驱动”的可能性。
Sapient 的长期方向是 reasoning-knowledge decoupling：模型不需要记住一切，但需要学会如何思考、查找、验证、行动。HRM 可作为底层推理核心（Reasoning Core）应用于可靠性诊断、系统优化、数据组织、工具调用等场景。
下一步从符号推理（HRM-Symbolic）扩展到文本（HRM-Text），再到图像、视频、机器人等世界模型领域。

值得关注

1500 美元的低训练成本打破了“只有巨头才能探索基础模型”的惯性，让大学实验室、创业团队也能直接验证新架构假设。
HRM 的路线并非否定 Scaling，而是提供另一种可复用的架构思路。企业 AI 能力建设可能不必依赖越来越大的通用模型，而是通过更高效的推理核心+外部知识/工具组合实现。

阅读原文详情