面壁MiniCPM5-1B发布:1B参数跑出2B性能,AI自进化范式带来端侧革命
面壁智能发布全球首个由AI自主编写的基座模型MiniCPM5-1B,以1B参数量在权威评测中超越主流2B模型,位列小尺寸模型榜单第一。其背后由AI自主编写的训练框架ForgeTrain驱动,训练速度超越主流标杆Megatron和MindSpeed约10%,并实现了AI自进化闭环——模型越强则框架与数据越优,进而催生下一代更强模型,加速AGI进程。面壁同时开源了ForgeTrain和超1T Tokens的中文合成数据集Ultra-Fineweb-zh-L3。
事件概述
面壁智能于2026年5月25日发布MiniCPM5-1B基座模型,这是全球首个完全由AI自主编写并成功训练出的工业生产级模型。该模型参数量仅1B,但在国际评测机构Artificial Analysis的「小尺寸模型」榜单中综合分位列第一,成为全球2B参数规模以内最强的开源基座模型。其性能实现了跨代级飞跃:仅靠一半参数量即超越三个月前的主流2B级模型,验证了面壁提出的「智能密度约每3.5个月翻一番」的定律。
核心信息
- 越级性能:在LCB-Pro 25Q2 (Easy)代码测试中得分22.68,在AIME-2025/2026奥林匹克数学推理测试中得分40.42,均在同体量模型中大幅领先。
- 极致压缩比:FP16高精度下仅占约2GB内存,INT4/Q4量化后可压缩至0.5GB且几乎无损,支持CPU和浏览器运行,极大降低部署门槛。
- 均衡能力:在智能体、代码编程、逻辑推理、数学推理、综合知识等七个维度均名列前茅,呈现「六边形战士」特征。
核心技术:Forge Engineering与AI自进化闭环
MiniCPM5-1B的底层采用面壁智能提出的新软件工程范式「Forge Engineering」(锻造工程),其关键载体为训练框架ForgeTrain。ForgeTrain是目前已知首个完全由AI编写并成功训练出工业生产级模型的大模型训练框架:
- 在「零人工代码介入」约束下,仅耗时3-5天即跑通华为昇腾系列适配,在英伟达H100上的训练速度超越标杆Megatron 10%,在昇腾上同样超越MindSpeed 10%。
- 核心逻辑:当AI生成代码成本趋近于零,面对新硬件或模型时,AI可直接「按需生成」专有的极致优化代码,无需长期维护臃肿通用框架。
数据层面:面壁联合清华、OpenBMB提出L0-L4分级数据治理框架。在关键的L3阶段,AI对海量语料进行系统性编辑与合成,提纯出高质量数据。使用L3数据训练的模型相比传统L1数据,数学能力提升7.06个百分点,通用推理能力平均提升超3pp。采用「先L1筑基、再L2强化、最后L3拔高」的分级训练策略,同样120B Tokens数据量下整体性能比传统混合训练提升1.49pp,后期训练效率达混合策略的1.7倍。团队同步开源了中文预训练合成数据集Ultra-Fineweb-zh-L3,包含超1T Tokens(中文约410B Tokens),为开源社区最大规模之一。
自进化飞轮:AI编写的框架 + AI提纯的高质量数据 → 更强大的基座模型(MiniCPM5-1B)→ 更强的代码生成与数据理解能力 → 生成更优的训练框架和更高质量数据 → 训练出下一代更强模型,形成「模型越强 → 框架与数据越优 → 下一代模型更强」的闭环。
行业影响
- 对国产算力:ForgeTrain的范式创新使国产芯片不必像素级模仿CUDA生态,有望彻底重写昇腾底层软件栈,实现绕过英伟达生态壁垒的非线性突围。
- 对端侧AI:MiniCPM5-1B天生支持低功耗设备运行,使「人人拥有赛博桌宠」或端侧全能助手成为现实。
- 对研发模式:面壁率先跑通「AI制造AI」的递归闭环(算法-算力-数据三驾马车),正向自改进L4阶段发起冲锋,将模型训练从手工作坊带入工业流水线时代。
项目与开源
- ForgeTrain开源链接:https://github.com/OpenBMB/ForgeTrain
- MiniCPM端侧桌宠项目(基于clawd-on-desk二次开发):https://github.com/OpenBMB/MiniCPM-Desk-Pet
