10年前至强服务器跑满血版Gemma 4 26B MoE：llama.cpp CPU推理调优实录

2026/06/01 18:37阅读量 2

一位开发者利用约10年前的至强服务器，通过llama.cpp成功加载并运行完整版Gemma 4 26B MoE模型，完全依赖CPU推理。该实践展示了在老旧硬件上运行大型MoE模型的可能性，并记录了内存配置、加载参数等关键调优经验。

开发者报告称，使用一台约10年前的至强（Xeon）服务器，通过llama.cpp框架成功加载并运行满血版Gemma 4 26B MoE模型，完全依赖CPU进行推理，未使用GPU加速。该案例表明，即使硬件老旧，通过合理的内存分配（如足够的内存容量）、模型量化选择以及llama.cpp的CPU推理优化选项，仍可运行参数规模较大的混合专家（MoE）模型。调优实录中详细记录了内存占用、推理速度、可能遇到的内存不足（OOM）问题及其解决策略。对于在传统服务器或低成本环境下部署大型语言模型，该实践提供了具体参考。