Redis作者antirez为DeepSeek V4 Flash写专用引擎,Mac本地免费运行大模型成现实
2026/05/10 16:54阅读量 2
Redis作者antirez开源ds4推理引擎,让DeepSeek V4 Flash在128GB苹果笔记本上本地运行,实现无需付费的token自由。该方案通过不对称2-bit量化、KV Cache上SSD和纯Metal优化,将原本需50万硬件成本的模型压缩到3万MacBook上可用。事件既彰显DeepSeek的生态号召力,也带来API收入被侵蚀、量化质量等潜在风险。
事件概述
Redis作者Salvatore Sanfilippo(antirez)发布开源项目ds4,一个为DeepSeek V4 Flash量身定制的推理引擎。该引擎用几千行C代码实现,让DeepSeek V4 Flash(284B总参数,每次激活13B的MoE架构)可在128GB内存的MacBook Pro上本地运行,支持100万token上下文。用户无需再为token付费,实现本地agent任务零成本调用。
核心技术方案
- 不对称2-bit量化:仅对MoE专家层(routed experts)做激进压缩(up/gate矩阵用IQ2_XXS,down矩阵用Q2_K),而shared experts、projections、routing网络等关键路径保持原始精度,在压缩模型体积的同时保住核心质量。
- KV Cache上SSD:将KV缓存持久化到SSD,避免占满内存,使百万token长上下文在MacBook上成为可能。日常使用中100k~300k上下文更现实。
- 纯Metal原生路径:针对苹果GPU深度优化,在M3 Max 128GB上实测约26 token/s,M3 Ultra 512GB约36 token/s,足以满足写代码、调试等日常任务。
对DeepSeek的利好与隐忧
利好:antirez作为顶级开源开发者将模型嵌入本地工具链,变相为DeepSeek背书。模型被作为“材料”嵌入开发者工作流后,迁移成本高,形成粘性。Hugging Face仓库下载量已超25000次。这为DeepSeek在寻求73.5亿美元融资时提供了生态位故事。
隐忧:ds4直接剥夺部分API收入——重度agent用户可一次性购买MacBook后免费运行。量化版本在长代码文件中可能丢失变量作用域、产生幻觉,且问题根源易被用户归因于“DeepSeek不行”。模型沦为上层工具的材料,而非平台,商业闭环被第三方工具链截流。
