22岁开发者开源Mythos架构：循环深度Transformer实现参数减半效果

2026/04/20 15:59阅读量 37

22岁的Kye Gomez开源了OpenMythos项目，通过整合公开研究与推测，实现了基于MoE和注意力机制的循环深度Transformer（RDT）架构。该架构利用混合专家层在16次循环中激活不同路径，结合LTI稳定循环注入技术，以770M参数达到与1.3B标准Transformer相当的效果。实验表明，这种“堆循环而非堆参数”的模式显著提升了模型在系统性泛化和长推理链外推任务中的表现。

事件概述

22岁的Swarms智能体框架创始人Kye Gomez开源了名为OpenMythos的项目。该项目整合了对Anthropic Mythos架构的主流推测及公开研究，成功复现了一种不依赖增加参数量、而是通过循环计算提升推理深度的新型架构。

核心架构：RDT (Recurrent-Depth Transformer)

OpenMythos实现的RDT架构包含三个关键设计点，旨在解决传统Transformer“堆叠层数导致参数爆炸”的问题：

循环迭代机制：不再堆叠上百层不同的Transformer层，而是让同一组权重反复运行最多16遍。每一轮循环都基于前一轮的结果继续计算，实现“想更多遍”而非“想更宽”。
MoE路由借鉴：循环块内部采用混合专家层（MoE），借鉴了DeepSeek MoE的设计思路——大量细粒度路由专家配合少量始终在线的共享专家。每次循环激活不同的专家子集，确保重复计算并非冗余，而是覆盖不同领域知识。
- 核心逻辑：MoE提供领域知识的广度，循环提供推理的深度。
潜在空间推理：16轮推理全程在hidden state向量（潜在空间）中完成，不生成任何中间token。这与传统的思维链（Chain-of-Thought, CoT）不同，CoT是“想一步写一步”，而RDT是“想完16遍才输出最终答案”。

稳定性与实验结果

为防止循环发散，项目引入了来自UCSD和Together AI论文《Parcae: Scaling Laws For Stable Looped Language Models》中的LTI稳定循环注入（Linear Time-Invariant Stable Loop Injection）技术。

关键实验数据：

参数效率：使用770M参数的RDT模型，效果追平了1.3B参数的标准Transformer模型，参数量减少近一半。
系统性泛化：在训练时未见过的知识组合推理任务中，RDT能正确作答，而标准Transformer失败。
深度外推能力：当训练数据仅包含20跳推理链，测试输入为30跳时，RDT通过增加循环轮数应对，而标准Transformer直接崩溃。

行业影响

这些结果表明，当前大模型的瓶颈可能不在于预训练知识量，而在于将已知事实串联起来回答新颖问题的组合能力。如果结论成立，AI行业的Scaling定律主流将从“训练更大的模型”转向“让现有模型在推理时多想几遍”。

资源链接

GitHub仓库：https://github.com/kyegomez/OpenMythos
参考论文：

阅读原文详情

事件概述

核心架构：RDT (Recurrent-Depth Transformer)

稳定性与实验结果

行业影响

资源链接

准备好启动您的定制项目了吗？