美团LongCat-2.0:国产算力首次支撑万亿参数模型全链路训推

2026/07/02 18:56阅读量 2

美团发布LongCat-2.0,总参数1.6万亿,每token激活约48B参数,支持1M上下文。该模型从训练到推理全程基于国产芯片完成,成为首个在国产算力上实现全链路训推闭环的万亿参数模型。此前以化名Owl Alpha匿名上线OpenRouter,两个月内成为开发者热门选择。团队通过自研稀疏注意力LSA、N-gram Embedding、自动化故障处理等创新,将国产芯片MFU提升至27.68%,训推成本显著低于英伟达同等规模方案。

美团发布LongCat-2.0,总参数达1.6万亿,采用自研MoE混合专家架构,每token激活约48B参数,原生支持1M超长上下文。该模型从预训练到推理全程使用国产芯片,英伟达算力占比为零,是国内首个在国产算力上实现全链路训推闭环的万亿参数模型。

此前,LongCat-2.0曾以化名"Owl Alpha"在OpenRouter等平台匿名上线,两个月内月调用量在Hermes、Claude Code和OpenClaw三榜单中分列全球第一、第二和第三,成为开发者首选的开源模型。这证明了即使无品牌背书,国产芯片训练出的万亿模型也获得了全球开发者的认可。

在技术架构上,LongCat-2.0针对Agent场景重新设计了LongCat稀疏注意力(LSA),优化了索引器以减少计算量和显存碎片,使得1M上下文处理速度显著提升而质量无损。此外,N-gram Embedding将部分参数前移至Embedding层,使模型能快速识别高频词组,减少专家间通信开销。ScMoE快捷连接和零计算专家等设计进一步提升了算力利用效率。

工程层面,美团搭建了5万张国产卡的集群,并通过自动化故障处理体系将日均故障率从万分之15.7降至万分之4.4,支持训练任务从2560张卡无缝扩展至5万余张。团队重写了适配国产芯片的算子和并行方案,将硬件利用率(MFU)从17.8%提升至27.68%,单日Token处理能力从7170亿提升至1.12万亿。这些优化叠加国产芯片的成本优势,使LongCat-2.0的训推成本显著低于英伟达同等规模方案。

在实际测试中,LongCat-2.0在处理超长文档、代码修改(如将2048游戏从原生JS迁移至React)、Agent自主搜索写作等方面均表现出色,并且与Claude Code等主流编程工具适配良好。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。