美团LongCat-2.0：国产算力首次支撑万亿参数模型全链路训推

2026/07/02 18:56阅读量 2

美团发布LongCat-2.0，总参数1.6万亿，每token激活约48B参数，支持1M上下文。该模型从训练到推理全程基于国产芯片完成，成为首个在国产算力上实现全链路训推闭环的万亿参数模型。此前以化名Owl Alpha匿名上线OpenRouter，两个月内成为开发者热门选择。团队通过自研稀疏注意力LSA、N-gram Embedding、自动化故障处理等创新，将国产芯片MFU提升至27.68%，训推成本显著低于英伟达同等规模方案。

美团发布LongCat-2.0，总参数达1.6万亿，采用自研MoE混合专家架构，每token激活约48B参数，原生支持1M超长上下文。该模型从预训练到推理全程使用国产芯片，英伟达算力占比为零，是国内首个在国产算力上实现全链路训推闭环的万亿参数模型。

此前，LongCat-2.0曾以化名"Owl Alpha"在OpenRouter等平台匿名上线，两个月内月调用量在Hermes、Claude Code和OpenClaw三榜单中分列全球第一、第二和第三，成为开发者首选的开源模型。这证明了即使无品牌背书，国产芯片训练出的万亿模型也获得了全球开发者的认可。

在技术架构上，LongCat-2.0针对Agent场景重新设计了LongCat稀疏注意力（LSA），优化了索引器以减少计算量和显存碎片，使得1M上下文处理速度显著提升而质量无损。此外，N-gram Embedding将部分参数前移至Embedding层，使模型能快速识别高频词组，减少专家间通信开销。ScMoE快捷连接和零计算专家等设计进一步提升了算力利用效率。

工程层面，美团搭建了5万张国产卡的集群，并通过自动化故障处理体系将日均故障率从万分之15.7降至万分之4.4，支持训练任务从2560张卡无缝扩展至5万余张。团队重写了适配国产芯片的算子和并行方案，将硬件利用率（MFU）从17.8%提升至27.68%，单日Token处理能力从7170亿提升至1.12万亿。这些优化叠加国产芯片的成本优势，使LongCat-2.0的训推成本显著低于英伟达同等规模方案。

在实际测试中，LongCat-2.0在处理超长文档、代码修改（如将2048游戏从原生JS迁移至React）、Agent自主搜索写作等方面均表现出色，并且与Claude Code等主流编程工具适配良好。

阅读原文详情

准备好启动您的定制项目了吗？