Redis之父下场,给DeepSeek V4单独造了一台推理引擎

2026/05/08 16:20阅读量 103

Redis创始人antirez(Salvatore Sanfilippo)发布ds4.c,一个专为DeepSeek V4 Flash模型设计的本地推理引擎,基于C和Metal编写,在Apple Silicon设备上实现了可用的推理速度。该引擎采用非对称量化、KV缓存到磁盘、API兼容层等优化,并在128GB Mac上跑出26.68 token/s的生成速度。项目体现出“一个模型一个引擎”的极端优化思路,且全程在GPT-5.5辅助下开发。

事件概述

DeepSeek V4发布两周后,Redis创始人antirez为其效率型号V4 Flash(284B总参数、13B激活参数、100万上下文)专门开发了本地推理引擎ds4.c。该项目使用C + Metal从头编写,仅支持Apple Silicon,目标是让该模型在Mac上“能用”而非仅仅“能跑”。

核心性能数据

  • 硬件:128GB MacBook Pro M3 Max,2-bit量化、32K上下文,短prompt预填充58.52 token/s,生成26.68 token/s。
  • 更高配置:512GB Mac Studio M3 Ultra,长prompt(11709 token)预填充468.03 token/s,生成27.39 token/s。

关键技术优化

  1. 非对称量化:仅对MoE专家层进行低比特量化(up/gate用IQ2_XXS,down用Q2_K),共享专家层、投影层、路由层保留Q8精度。antirez表示2-bit量化在coding agent场景下表现良好。
  2. KV缓存到磁盘:将KV状态写入磁盘,下次请求匹配token前缀SHA1哈希,命中则跳过prefill。对Claude Code这类每次发送25K token初始prompt的场景特别有效。
  3. API兼容层:内置OpenAI(/v1/chat/completions)和Anthropic(/v1/messages)两套协议,支持tool calling,直接适配opencode、Pi、Claude Code等agent客户端。

设计理念与讨论

antirez认为通用推理引擎为了兼容所有模型必须做抽象,而抽象意味着妥协。ds4.c刻意只针对一个模型优化,“用官方logits做验证、做长上下文测试、做足够的agent集成”。这引发了开发者社区关于“一个模型一个推理框架”趋势的讨论——GPU昂贵且模型更迭快,极端优化可能以牺牲通用性为代价。antirez承认未来可能会换模型,但核心约束仍是高端个人机或Mac Studio(起步128GB内存)。他提及未来可能加入CUDA支持,但强调本项目保持小、快、专注。

开发背景

ds4.c在README中声明,代码在GPT-5.5“强力辅助”下完成,人类负责想法、测试和调试。antirez本人是Redis创造者(主导11年),2024年底回到Redis担任evangelist。他个人风格强调小、精确、自成一体,ds4.c延续了这一传统。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。