个人开发者逯雨鑫凭本地模型登顶Hugging Face热榜，下载量超70万

2026/06/28 21:55阅读量 1

个人开发者逯雨鑫（yuxinlu1）发布的基于Gemma4-12B的GGUF量化模型，在Hugging Face Trending榜上一度超越智谱GLM-5.2等大厂模型，两款模型合计下载量超74万。该模型通过蒸馏Fable 5推理能力，可在4.5GB显存的本地设备上运行，V2版本在特定基准上表现提升至基座的3.5倍。作者为美国AI研究生，自费完成项目，强调数据质量和用户隐私。

事件概述

个人开发者逯雨鑫（Hugging Face账号 yuxinlu1）发布的基于Google Gemma4-12B的GGUF量化模型，在Hugging Face Models Trending榜上闯入前排，一度超越智谱GLM-5.2、百度Unlimited-OCR等大厂模型，两款模型合计下载量超74万。

核心信息

模型架构：以Gemma4-12B为底座，通过蒸馏Fable 5的编程推理能力，将推理链注入小模型。两个版本：V1 Coder版（专注代码生成与解题）和V2 Agentic版（增加多步工具调用能力）。
量化与部署：模型为GGUF格式，兼容llama.cpp/Ollama/LM Studio等本地推理框架。最小版本Q2_K仅需约4.5GB显存，推荐Q4_K_M约6.87GB，V2最小可靠版本从Q3_K_M（约5.7GB）起。支持消费级显卡和统一内存Mac设备。
性能数据：V2在tau2-bench telecom子集上得分55%（基座Gemma4-12B仅15%），但作者声明为本地自测、单一领域、20个任务。V1训练数据约1万条，强调“可验证”代码推理——思维链对应的代码需通过测试才保留。
作者背景：逯雨鑫，美国AI方向在读研究生，本科数据与商业分析。项目为纯自费个人项目，使用单张RTX 5090（32GB VRAM）和约96GB本地SSD，整个V2耗时40多小时，数据处理（尤其是agentic长序列裁剪）比训练更耗时。
未来计划：V3仍沿12B路线推进coding+agentic方向，同时开发基于Qwen3.6-27B的大版本，面向显存更充足的用户。

值得关注

个人开发者在大厂围剿中突围，依靠的是极致本地化（4.5GB可跑、离线、免费）和专注具体痛点（代码推理）。
作者坦言大厂能做得更好，但开源小模型受品牌和API引流目标影响，而个人开发者可以更纯粹地解决“好用”问题。
数据质量优于数量：约1万条高质量、经过验证的训练数据即可产出有效模型。
作者患有ADHD，认为在快速变化的AI领域，快速切换兴趣的“hyperfocus”反而成为优势。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？