1500美元训出1B模型,HuggingFace CEO和Bengio团队为何同时关注HRM?
2026/06/13 20:40阅读量 2
Sapient Intelligence 发布 HRM-Text,一个参数量约 1B、训练成本约 1500 美元的推理模型,在 MATH、GSM8K 等基准上表现突出。该模型采用高层-低层双时间尺度递归架构(HRM),强调在潜空间中进行分层递归推理,而非依赖更长的思维链。HuggingFace CEO 转发推荐,Bengio 团队参与的 GRAM 论文也复用类似架构。HRM-Text 验证了通过改变计算结构而非堆叠参数提升推理能力的新路线。
事件概述
Sapient Intelligence 发布 HRM-Text,一个从零预训练、参数量约 1B、训练成本约 1500 美元的小模型。该模型在多个推理基准上表现优异:MATH 56.2、GSM8K 84.5、ARC-Challenge 81.9、DROP 82.2。HuggingFace CEO Clem Delangue 亲自转发推荐,图灵奖得主 Yoshua Bengio 作为共同作者参与的 GRAM 论文也走向了相同的潜空间递归推理路线。
核心信息
架构核心:分层递归推理(HRM)
- 标准 Transformer 是逐层一次处理,HRM 在模型内部设置两个不同节奏的模块:高层模块 H(慢更新,负责全局方向)和低层模块 L(快更新,负责局部细节)。两者在同一个潜空间中反复更新内部状态,实现输出前的多轮内部递归计算。
- 训练损失只计算回答部分(instruction 不计算损失),配合 PrefixLM attention mask,让训练信号更集中于任务完成。
- 引入 MagicNorm 和 warmup deep credit assignment 解决递归训练不稳定的问题。
关键数据
- 训练数据仅约 40B unique tokens(考虑重复采样共 60B tokens),而 Llama 3.2 3B 使用 9T tokens,Qwen3 2B 使用 36T tokens,分别是 HRM-Text 的 225 倍和 900 倍。
- 在相同训练 FLOPs 条件下,ARC-Challenge 从 51.9 提升到 81.9,MATH 从 35.4 提升到 56.2,GSM8K 从 48.4 提升到 84.5。
- Sapient 进行了严格的训练数据污染分析,在 clean split 下仍保持优势。
与 GRAM 的关系
- Bengio 团队的 《Generative Recursive Reasoning》(GRAM) 在核心计算骨架上高度复用了 HRM 的设计:高层状态、低层状态、双时间尺度、潜空间递归、输出前内部计算。GRAM 在此基础上增加了概率生成模块,形成多轨迹生成式推理框架。
意义与展望
- HRM-Text 不是“小模型逆袭”,而是证明模型能力增长除了参数、数据、算力之外,还存在另一个变量——计算结构。它让基础模型研发重新出现“非规模驱动”的可能性。
- Sapient 的长期方向是 reasoning-knowledge decoupling:模型不需要记住一切,但需要学会如何思考、查找、验证、行动。HRM 可作为底层推理核心(Reasoning Core)应用于可靠性诊断、系统优化、数据组织、工具调用等场景。
- 下一步从符号推理(HRM-Symbolic)扩展到文本(HRM-Text),再到图像、视频、机器人等世界模型领域。
值得关注
- 1500 美元的低训练成本打破了“只有巨头才能探索基础模型”的惯性,让大学实验室、创业团队也能直接验证新架构假设。
- HRM 的路线并非否定 Scaling,而是提供另一种可复用的架构思路。企业 AI 能力建设可能不必依赖越来越大的通用模型,而是通过更高效的推理核心+外部知识/工具组合实现。
