个人开发者逯雨鑫凭本地模型登顶Hugging Face热榜,下载量超70万
2026/06/28 21:55阅读量 1
个人开发者逯雨鑫(yuxinlu1)发布的基于Gemma4-12B的GGUF量化模型,在Hugging Face Trending榜上一度超越智谱GLM-5.2等大厂模型,两款模型合计下载量超74万。该模型通过蒸馏Fable 5推理能力,可在4.5GB显存的本地设备上运行,V2版本在特定基准上表现提升至基座的3.5倍。作者为美国AI研究生,自费完成项目,强调数据质量和用户隐私。
事件概述
个人开发者逯雨鑫(Hugging Face账号 yuxinlu1)发布的基于Google Gemma4-12B的GGUF量化模型,在Hugging Face Models Trending榜上闯入前排,一度超越智谱GLM-5.2、百度Unlimited-OCR等大厂模型,两款模型合计下载量超74万。
核心信息
- 模型架构:以Gemma4-12B为底座,通过蒸馏Fable 5的编程推理能力,将推理链注入小模型。两个版本:V1 Coder版(专注代码生成与解题)和V2 Agentic版(增加多步工具调用能力)。
- 量化与部署:模型为GGUF格式,兼容llama.cpp/Ollama/LM Studio等本地推理框架。最小版本Q2_K仅需约4.5GB显存,推荐Q4_K_M约6.87GB,V2最小可靠版本从Q3_K_M(约5.7GB)起。支持消费级显卡和统一内存Mac设备。
- 性能数据:V2在tau2-bench telecom子集上得分55%(基座Gemma4-12B仅15%),但作者声明为本地自测、单一领域、20个任务。V1训练数据约1万条,强调“可验证”代码推理——思维链对应的代码需通过测试才保留。
- 作者背景:逯雨鑫,美国AI方向在读研究生,本科数据与商业分析。项目为纯自费个人项目,使用单张RTX 5090(32GB VRAM)和约96GB本地SSD,整个V2耗时40多小时,数据处理(尤其是agentic长序列裁剪)比训练更耗时。
- 未来计划:V3仍沿12B路线推进coding+agentic方向,同时开发基于Qwen3.6-27B的大版本,面向显存更充足的用户。
值得关注
- 个人开发者在大厂围剿中突围,依靠的是极致本地化(4.5GB可跑、离线、免费)和专注具体痛点(代码推理)。
- 作者坦言大厂能做得更好,但开源小模型受品牌和API引流目标影响,而个人开发者可以更纯粹地解决“好用”问题。
- 数据质量优于数量:约1万条高质量、经过验证的训练数据即可产出有效模型。
- 作者患有ADHD,认为在快速变化的AI领域,快速切换兴趣的“hyperfocus”反而成为优势。
