DeepSeek V4发布在即,基础设施负责人代达劢面临硬件迁移与高并发双重考验
2026/04/10 12:39阅读量 2
DeepSeek创始人透露旗舰模型V4将于4月下旬发布,但3月底长达近13小时的系统瘫痪暴露了其基础设施的脆弱性。V4将全面适配国产芯片,涉及底层算子重写与精度对齐等复杂工程挑战。作为基础设施负责人,代达劢需在确保新架构稳定运行的同时,解决从CUDA生态迁移带来的性能瓶颈问题。
事件概述
据内部沟通消息,DeepSeek新一代旗舰大模型DeepSeek V4预计于2026年4月下旬正式发布。然而,在新模型发布前夕,DeepSeek的基础设施稳定性面临严峻考验。3月29日晚至30日上午,平台遭遇史诗级服务中断,持续时长达12小时58分钟,创下该司成立以来单次故障最长纪录。此次事件引发外界对DeepSeek能否承载V4发布后可能爆发的流量冲击的担忧。
核心人物:代达劢(Dai Daidong)
代达劢是DeepSeek基础设施团队的核心负责人,负责整个推理系统的工程优化、规模化部署及底层管道建设。其背景与贡献包括:
- 学术成就:2024年毕业于北京大学计算机学院,师从穗志方教授。发表20余篇顶会论文,Google Scholar引用超2.8万次,曾获EMNLP最佳长论文奖(中国大陆机构首次获此殊荣)。
- 技术架构:作为第一作者提出DeepSeekMoE架构(发表于ACL 2024),通过“细粒度专家分割”和共享专家隔离机制,解决了传统MoE架构的冗余问题。该架构使145B参数模型仅需28.5%计算量即可达到同等性能,成为DeepSeek-V2和V3的核心基础。
- 当前职责:专注于让模型在百万级用户并发下不崩盘,负责多硬件平台调优、分布式架构设计及故障降级预案。
关键挑战:V4发布的“硬仗”
1. 国产芯片全面迁移
DeepSeek V4将基于国产芯片完成适配,这意味着从英伟达CUDA生态向国产框架的底层迁移:
- 算子重写:需大量重写底层代码,特别是Flash Attention、Triton自定义算子等高性能优化层。
- 精度对齐:不同芯片的并行分拆策略导致浮点运算累积误差路径不同。对于百亿级以上参数及长上下文场景,误差可能在输出层产生明显偏差,需重新排查性能瓶颈。
- 资源调度:如何在多硬件平台间做好动态分配与负载均衡,确保迁移过程服务不中断。
2. 高并发下的系统稳定性
3月29日的崩溃暴露了交付系统在应对流量高峰时的不足:
- 故障时间线:
- 21:35:大规模服务中断开始。
- 23:23:首次修复,部分恢复但随即再次波动。
- 01:24:二次修复,服务仍不稳定。
- 次日10:00:所有服务完全恢复正常。
- 历史对比:此前DeepSeek网页端服务从未出现超过2小时的中断,此次近13小时的瘫痪与其技术能力预期不符。
3. 人才储备与系统优化
为应对V4的挑战,DeepSeek近期加强了基础设施团队建设:
- DualPath论文:2026年2月联合清华、北大发布,旨在解决推理系统的吞吐瓶颈,提升大规模服务承载能力。
- 人员扩充:北大博士生吴永彤于2025年7月加入DeepSeek系统组,专注于大规模内部软件系统的系统级优化,确保在不同硬件平台上高效运行。
结论
DeepSeek V4的成功不仅取决于模型跑分,更取决于发布时系统能否稳住。如果V4发布当天再次发生长时间宕机,即便模型性能再强也难以挽回用户体验。代达劢及其团队面临的不仅是技术架构的升级,更是将模型能力稳定交付给用户的工程战役。
