22岁开发者开源Mythos架构:循环深度Transformer实现参数减半效果
2026/04/20 15:59阅读量 37
22岁的Kye Gomez开源了OpenMythos项目,通过整合公开研究与推测,实现了基于MoE和注意力机制的循环深度Transformer(RDT)架构。该架构利用混合专家层在16次循环中激活不同路径,结合LTI稳定循环注入技术,以770M参数达到与1.3B标准Transformer相当的效果。实验表明,这种“堆循环而非堆参数”的模式显著提升了模型在系统性泛化和长推理链外推任务中的表现。
事件概述
22岁的Swarms智能体框架创始人Kye Gomez开源了名为OpenMythos的项目。该项目整合了对Anthropic Mythos架构的主流推测及公开研究,成功复现了一种不依赖增加参数量、而是通过循环计算提升推理深度的新型架构。
核心架构:RDT (Recurrent-Depth Transformer)
OpenMythos实现的RDT架构包含三个关键设计点,旨在解决传统Transformer“堆叠层数导致参数爆炸”的问题:
- 循环迭代机制:不再堆叠上百层不同的Transformer层,而是让同一组权重反复运行最多16遍。每一轮循环都基于前一轮的结果继续计算,实现“想更多遍”而非“想更宽”。
- MoE路由借鉴:循环块内部采用混合专家层(MoE),借鉴了DeepSeek MoE的设计思路——大量细粒度路由专家配合少量始终在线的共享专家。每次循环激活不同的专家子集,确保重复计算并非冗余,而是覆盖不同领域知识。
- 核心逻辑:MoE提供领域知识的广度,循环提供推理的深度。
- 潜在空间推理:16轮推理全程在hidden state向量(潜在空间)中完成,不生成任何中间token。这与传统的思维链(Chain-of-Thought, CoT)不同,CoT是“想一步写一步”,而RDT是“想完16遍才输出最终答案”。
稳定性与实验结果
为防止循环发散,项目引入了来自UCSD和Together AI论文《Parcae: Scaling Laws For Stable Looped Language Models》中的LTI稳定循环注入(Linear Time-Invariant Stable Loop Injection)技术。
关键实验数据:
- 参数效率:使用770M参数的RDT模型,效果追平了1.3B参数的标准Transformer模型,参数量减少近一半。
- 系统性泛化:在训练时未见过的知识组合推理任务中,RDT能正确作答,而标准Transformer失败。
- 深度外推能力:当训练数据仅包含20跳推理链,测试输入为30跳时,RDT通过增加循环轮数应对,而标准Transformer直接崩溃。
行业影响
这些结果表明,当前大模型的瓶颈可能不在于预训练知识量,而在于将已知事实串联起来回答新颖问题的组合能力。如果结论成立,AI行业的Scaling定律主流将从“训练更大的模型”转向“让现有模型在推理时多想几遍”。
资源链接
- GitHub仓库:https://github.com/kyegomez/OpenMythos
- 参考论文:
