火猫 AI

核心服务定制优势系统升级 AI 智能体 Skills 定制开发

AI 工具扣子智能体

精选案例资讯中心

安全保障关于我们联系我们

每日 AI 资讯

摩尔线程牵头开源局：SGLang、TileLang等核心开发者齐聚，国产GPU生态进入主流推理链路

2026/05/14 17:51阅读量 2

摩尔线程举办SGLang × MUSA Meetup，SGLang、TileLang、Mooncake等开源项目核心开发者到场。摩尔线程展示了MUSA后端已合入SGLang主线，完成从环境构建到分布式推理的全链路打通；DeepSeek V4在MUSA上实现Day-0适配，首token延迟降低56.7%；TileLang用15行代码达到CUTLASS性能；Mooncake通过RDMA P2P将Kimi K2权重同步时间从53秒降至7.2秒。国产GPU竞争正从参数之争转向生态坐标之争。

事件概述

2026年5月14日，摩尔线程举办了一场以“SGLang × MUSA”为主题的开源Meetup，汇聚了大模型推理框架SGLang的核心开发者BBuf（Xiaoyu Zhang）、下一代算子编程生态TileLang的维护者唐正举、KVCache解耦与传输项目Mooncake的核心贡献者马腾、智源人工智能研究院围绕Triton/FlagOS的AI编译器研究员肖航，以及GitHub活跃开发者R0CKSTAR等人。活动核心议题是：让国产GPU真正进入大模型推理的主流开源工程链路，围绕SGLang、Triton/FlagOS、TileLang、Mooncake等组件实现全流程打通。

核心信息

1. SGLang on MUSA全链路打通

摩尔线程工程师R0CKSTAR总结：SGLang on MUSA已完成从环境构建到CI测试的全链路打通。用户克隆SGLang官方仓库后，安装sgl-kernel和sglang，即可在摩尔线程MTT S5000显卡上直接运行DeepSeek、通义千问3.5、GLM-4.5、FLUX、Wan等主流大模型。MUSA的三层CUDA兼容栈（torch_musa、torchada、mthreads-ml-py）使99%的CUDA代码通过一行 import torchada 即可迁移。截至5月12日，摩尔线程在SGLang主线共提交47个PR，其中41个已合入。

SGLang核心开发者BBuf介绍了2026 Q2路线图要点：

针对DeepSeek V4的全链路优化（W4A16量化、MegaMoE加速、稀疏注意力支持）；
jit_kernel全面替代sgl-kernel，编译速度提升数倍；
Vibe Coding落地，AI agent自动分析profiler、定位瓶颈并提交PR，5月前已完成超过60个优化任务；
多模态支持升级，性能比其他框架最高快5倍。

BBuf还展示了一组数据：SGLang通过P/D分离架构，在12个H100节点上跑出52.3k输入token/s/node、22.3k输出token/s/node的成绩，比DeepSeek官方API便宜5倍，该结果已被全球10多个团队复现。

2. DeepSeek V4 Day-0适配与算子优化

智源研究员肖航表示，通过FlagOS的Triton算子优化和摩尔线程的SQMMA张量加速引擎，DeepSeek V4在MUSA上的首token延迟降低56.7%，吞吐量提升23%。关键优化集中在FP8矩阵乘算子（平均加速8.85倍）和稀疏注意力算子（平均加速6.07倍），这两个算子占推理时间的80%。

3. TileLang简化算子开发

TileLang维护者唐正举介绍，该项目2025年2月开源，一年内收获6k星和133位贡献者，DeepSeek V4的核心kernel即用TileLang编写。使用TileLang写FlashAttention仅需50行Python代码，性能与专家手写CUDA相同；15行代码的GEMM算子达到CUTLASS性能，代码量减少90%。

4. Mooncake推动KVCache解耦与生产部署

阿里云马腾展示了Mooncake最新进展：通过RDMA P2P权重更新，Kimi K2（1T模型）的权重同步时间从53秒降至7.2秒（加速7.37倍）；EPD三级解耦架构使多模态模型首token延迟降低6-8倍；HiCache + Mooncake后端使多轮对话缓存命中率超过90%。

值得关注

MUSA的设计理念：摩尔线程CTO张钰勃在开场演讲中强调，MUSA（Meta-computing Unified System Architecture）的目标是让GPU尽量拥抱通用计算，产品遵循统一标准，避免不同产品线用不同指令集导致生态无法积累。关键原则是“不希望开发者为了使用MUSA而重新学习一套东西”，通过三层CUDA兼容栈降低迁移成本。
生态战略转变：摩尔线程不再只是被动适配，而是向SGLang等顶级开源框架主线贡献代码、建立CI/CD、实现可持续的Upstream模式。四条生态线（SGLang推理链路、FlagOS/Triton算子优化、TileLang下一代算子编程、Mooncake生产部署）共同构成完整工程网络。
国产GPU竞争格局：行业竞争已从芯片参数之争转向生态坐标之争——能否融入全球开源主力工具链、能否做到Day-0支持新模型、能否进入上游主线，成为决定国产GPU未来地位的关键因素。

阅读原文详情

准备好启动您的定制项目了吗？

现在咨询，即可获得免费的业务梳理与技术架构建议方案。

联系我们查看案例