DeepSeek 27篇论文拆解:79位“多边形战士”撑起技术壁垒,核心团队流失率不足4%
通过分析DeepSeek近两年27篇论文的328位署名作者,发现团队拥有79位横跨3个以上技术方向的“多边形战士”,24位参与10篇以上论文的核心骨干。尽管郭达雅、王炳宣等明星员工被挖,初代团队近九成仍留任,V4离职率仅约3.7%。研究揭示其扁平化组织、不设部门墙、鼓励跨界协作的文化,以及聚焦系统效率(7篇)而非刷榜的研发策略,共同构成DeepSeek的真正护城河。
事件概述
通过统计DeepSeek近两年27篇核心论文的作者信息,构建包含328人的研发作者池。数据显示,79人横跨3个及以上技术方向(被称为“多边形战士”),24人参与10篇以上论文。被外界关注的郭达雅、王炳宣、阮翀等人确实位列高频作者,但即便如此,还有21位参与强度相当的核心骨干在列。初代模型(2024年1月)的86位作者中,到V4(2026年4月)仍有75人署名,留存率近九成;V4研发名单标注离职者仅10人,占比约3.7%。
核心发现
组织与文化特征: 团队层级极薄(多为梁文锋+研究员两层),不前置分工,研究员围绕兴趣自发组队,项目显现潜力后自上而下调配资源。不打卡、不加班、无明确绩效考核。这种机制催生了高水平跨界:328人中170人至少跨过两个方向,79人跨三个以上。Top25研发作者近四成毕业于北京大学,多为2023年前后毕业的年轻人。
研发方向聚焦: 27篇论文中,系统/效率类最多(7篇),远超基座模型(5篇)和数学(5篇)。这些论文不刷benchmark,全部围绕三类底层问题:提升算力利用率(如ESFT、Insights into V3)、降低长上下文缓存成本(如NSA、Conditional Memory、DualPath)、保障超大规模训练稳定性(如DeepSeekMoE、mHC)。团队采用“大兵团+特种小队”模式:基座模型报告200-300人参与,系统/数学等方向通常6-20人先小团队验证,跑通后再集成进旗舰模型。
技术演进主线: 1)参数效率:从V2的MoE(稀疏混合专家架构)到V4持续压低激活参数与推理成本;2)长上下文效率:从V2的MLA(多头潜在注意力)、V3.2的NSA(原生稀疏注意力)到V4的Hybrid Attention,V4在100万token场景下单Token推理计算量约为V3.2的27%,KV Cache占用约10%;3)后训练整合:R1验证大规模强化学习,V4通过同策略蒸馏(OPD)将数学、代码等领域能力合并,减少混训干扰。
值得关注
DeepSeek的竞争力不依附于个别明星员工。两年多积累的从MoE到mHC等核心技术模块已内化为团队工程实践,灵活的组织文化和可复制的研发流程才是其核心护城河。正如梁文锋所述:“把价值沉淀在团队上,同事在过程中得到成长,积累很多know-how,形成可以创新的组织和文化,就是我们的护城河。”
