摩尔线程牵头开源局:SGLang、TileLang等核心开发者齐聚,国产GPU生态进入主流推理链路
摩尔线程举办SGLang × MUSA Meetup,SGLang、TileLang、Mooncake等开源项目核心开发者到场。摩尔线程展示了MUSA后端已合入SGLang主线,完成从环境构建到分布式推理的全链路打通;DeepSeek V4在MUSA上实现Day-0适配,首token延迟降低56.7%;TileLang用15行代码达到CUTLASS性能;Mooncake通过RDMA P2P将Kimi K2权重同步时间从53秒降至7.2秒。国产GPU竞争正从参数之争转向生态坐标之争。
事件概述
2026年5月14日,摩尔线程举办了一场以“SGLang × MUSA”为主题的开源Meetup,汇聚了大模型推理框架SGLang的核心开发者BBuf(Xiaoyu Zhang)、下一代算子编程生态TileLang的维护者唐正举、KVCache解耦与传输项目Mooncake的核心贡献者马腾、智源人工智能研究院围绕Triton/FlagOS的AI编译器研究员肖航,以及GitHub活跃开发者R0CKSTAR等人。活动核心议题是:让国产GPU真正进入大模型推理的主流开源工程链路,围绕SGLang、Triton/FlagOS、TileLang、Mooncake等组件实现全流程打通。
核心信息
1. SGLang on MUSA全链路打通
摩尔线程工程师R0CKSTAR总结:SGLang on MUSA已完成从环境构建到CI测试的全链路打通。用户克隆SGLang官方仓库后,安装sgl-kernel和sglang,即可在摩尔线程MTT S5000显卡上直接运行DeepSeek、通义千问3.5、GLM-4.5、FLUX、Wan等主流大模型。MUSA的三层CUDA兼容栈(torch_musa、torchada、mthreads-ml-py)使99%的CUDA代码通过一行 import torchada 即可迁移。截至5月12日,摩尔线程在SGLang主线共提交47个PR,其中41个已合入。
SGLang核心开发者BBuf介绍了2026 Q2路线图要点:
- 针对DeepSeek V4的全链路优化(W4A16量化、MegaMoE加速、稀疏注意力支持);
- jit_kernel全面替代sgl-kernel,编译速度提升数倍;
- Vibe Coding落地,AI agent自动分析profiler、定位瓶颈并提交PR,5月前已完成超过60个优化任务;
- 多模态支持升级,性能比其他框架最高快5倍。
BBuf还展示了一组数据:SGLang通过P/D分离架构,在12个H100节点上跑出52.3k输入token/s/node、22.3k输出token/s/node的成绩,比DeepSeek官方API便宜5倍,该结果已被全球10多个团队复现。
2. DeepSeek V4 Day-0适配与算子优化
智源研究员肖航表示,通过FlagOS的Triton算子优化和摩尔线程的SQMMA张量加速引擎,DeepSeek V4在MUSA上的首token延迟降低56.7%,吞吐量提升23%。关键优化集中在FP8矩阵乘算子(平均加速8.85倍)和稀疏注意力算子(平均加速6.07倍),这两个算子占推理时间的80%。
3. TileLang简化算子开发
TileLang维护者唐正举介绍,该项目2025年2月开源,一年内收获6k星和133位贡献者,DeepSeek V4的核心kernel即用TileLang编写。使用TileLang写FlashAttention仅需50行Python代码,性能与专家手写CUDA相同;15行代码的GEMM算子达到CUTLASS性能,代码量减少90%。
4. Mooncake推动KVCache解耦与生产部署
阿里云马腾展示了Mooncake最新进展:通过RDMA P2P权重更新,Kimi K2(1T模型)的权重同步时间从53秒降至7.2秒(加速7.37倍);EPD三级解耦架构使多模态模型首token延迟降低6-8倍;HiCache + Mooncake后端使多轮对话缓存命中率超过90%。
值得关注
- MUSA的设计理念:摩尔线程CTO张钰勃在开场演讲中强调,MUSA(Meta-computing Unified System Architecture)的目标是让GPU尽量拥抱通用计算,产品遵循统一标准,避免不同产品线用不同指令集导致生态无法积累。关键原则是“不希望开发者为了使用MUSA而重新学习一套东西”,通过三层CUDA兼容栈降低迁移成本。
- 生态战略转变:摩尔线程不再只是被动适配,而是向SGLang等顶级开源框架主线贡献代码、建立CI/CD、实现可持续的Upstream模式。四条生态线(SGLang推理链路、FlagOS/Triton算子优化、TileLang下一代算子编程、Mooncake生产部署)共同构成完整工程网络。
- 国产GPU竞争格局:行业竞争已从芯片参数之争转向生态坐标之争——能否融入全球开源主力工具链、能否做到Day-0支持新模型、能否进入上游主线,成为决定国产GPU未来地位的关键因素。
