PicoLM:10美元硬件+45MB内存跑10亿参数模型,LLM推理推向嵌入式极限
RightNow-AI组织发布PicoLM项目,通过mmap分层加载、FP16转换、Flash Attention等优化,在10美元硬件(256MB内存)上仅用45MB运行时内存即可运行10亿参数的TinyLlama模型。纯C语言实现2500行代码,编译后80KB,无依赖。树莓派Zero 2W上达到2 token/s推理速度,x86平台13.5 token/s。支持KV缓存持久化和JSON语法约束,实现完全离线的本地AI代理能力,挑战了“越大越好”的主流AI叙事。
2026年2月,RightNow-AI在GitHub发布PicoLM项目,实现在10美元硬件上用256MB内存运行10亿参数大模型(TinyLlama 1.1B)。该项目的核心突破在于极致的内存管理:模型文件638MB通过mmap映射,每次只从磁盘读取一层权重到RAM,用完即释放,运行时内存仅占用45MB。
关键技术包括:纯C11编写的2500行代码,编译后仅80KB且零依赖;FP32到FP16的软件转换将KV缓存从88MB压缩至40MB;Flash Attention的online softmax实现消除了O(n)的注意力分数缓冲区;反量化与点积运算融合,减少中间缓冲区;预计算RoPE查表避免实时三角函数调用。
性能数据:x86平台推理速度达13.5 token/s,树莓派5约10 token/s,树莓派Zero 2W(15美元)约2 token/s。
实用化特性:支持KV缓存持久化(--cache参数),重复prompt延迟减少74%;--json模式通过词表预分析实现语法约束,确保小模型输出合法JSON。该项目作为PicoClaw离线AI代理的核心,无需网络、API密钥或云服务,可在嵌入式设备上实现本地工具调用。
PicoLM证明了边缘小模型与云端大模型的互补价值:前者解决实时性、隐私敏感的本地任务,后者负责复杂推理。它将LLM推理的硬件门槛从数千美元降至10美元,推理成本趋近于零。
