Redis之父下场，给DeepSeek V4单独造了一台推理引擎

2026/05/08 16:20阅读量 103

Redis创始人antirez（Salvatore Sanfilippo）发布ds4.c，一个专为DeepSeek V4 Flash模型设计的本地推理引擎，基于C和Metal编写，在Apple Silicon设备上实现了可用的推理速度。该引擎采用非对称量化、KV缓存到磁盘、API兼容层等优化，并在128GB Mac上跑出26.68 token/s的生成速度。项目体现出“一个模型一个引擎”的极端优化思路，且全程在GPT-5.5辅助下开发。

事件概述

DeepSeek V4发布两周后，Redis创始人antirez为其效率型号V4 Flash（284B总参数、13B激活参数、100万上下文）专门开发了本地推理引擎ds4.c。该项目使用C + Metal从头编写，仅支持Apple Silicon，目标是让该模型在Mac上“能用”而非仅仅“能跑”。

核心性能数据

硬件：128GB MacBook Pro M3 Max，2-bit量化、32K上下文，短prompt预填充58.52 token/s，生成26.68 token/s。
更高配置：512GB Mac Studio M3 Ultra，长prompt（11709 token）预填充468.03 token/s，生成27.39 token/s。

关键技术优化

非对称量化：仅对MoE专家层进行低比特量化（up/gate用IQ2_XXS，down用Q2_K），共享专家层、投影层、路由层保留Q8精度。antirez表示2-bit量化在coding agent场景下表现良好。
KV缓存到磁盘：将KV状态写入磁盘，下次请求匹配token前缀SHA1哈希，命中则跳过prefill。对Claude Code这类每次发送25K token初始prompt的场景特别有效。
API兼容层：内置OpenAI（/v1/chat/completions）和Anthropic（/v1/messages）两套协议，支持tool calling，直接适配opencode、Pi、Claude Code等agent客户端。

设计理念与讨论

antirez认为通用推理引擎为了兼容所有模型必须做抽象，而抽象意味着妥协。ds4.c刻意只针对一个模型优化，“用官方logits做验证、做长上下文测试、做足够的agent集成”。这引发了开发者社区关于“一个模型一个推理框架”趋势的讨论——GPU昂贵且模型更迭快，极端优化可能以牺牲通用性为代价。antirez承认未来可能会换模型，但核心约束仍是高端个人机或Mac Studio（起步128GB内存）。他提及未来可能加入CUDA支持，但强调本项目保持小、快、专注。

开发背景

ds4.c在README中声明，代码在GPT-5.5“强力辅助”下完成，人类负责想法、测试和调试。antirez本人是Redis创造者（主导11年），2024年底回到Redis担任evangelist。他个人风格强调小、精确、自成一体，ds4.c延续了这一传统。

阅读原文详情

事件概述

核心性能数据

关键技术优化

设计理念与讨论

开发背景

准备好启动您的定制项目了吗？