大模型创业转向“小”：从云端烧钱到端侧落地的范式转移

2026/04/30 13:03阅读量 3

受限于云端算力成本高昂及亏损扩大的商业困境，大模型行业正加速向端侧小型化转型。2025年手机NPU能力成熟与芯片显存约束共同推动了3B参数级模型在多模态任务上的落地，苹果、微软等巨头及面壁智能等创业公司纷纷布局。这一转变标志着行业竞争焦点从单纯比拼参数规模，转向具体场景下的离线可用性与工程适配能力。

事件概述

大模型创业公司正经历从追求大参数云端模型向端侧小型化模型的战略转移。这一趋势由云端高昂的算力成本、终端设备性能提升以及用户对离线可用性的需求共同驱动，标志着AI行业进入以场景落地为核心的下半场竞争。

核心事实与数据

云端商业困境：
- 2025年OpenAI预计税前亏损达212亿美元，尽管估值推高但营收增长伴随亏损同步扩大。
- Anthropic毛利率虽从2024年的-94%改善至2025年的40%以上，但同期EBITDA亏损仍达52亿美元。
- 行业普遍面临“规模效应悖论”：API调用量增加导致算力消耗线性上升，毛利率改善速度不及成本扩张速度。
端侧技术拐点（2025年）：
- 硬件能力：手机NPU性能兑现，苹果A系列芯片提供8-9GB显存成为设计基准，骁龙旗舰芯片亦具备同等条件。
- 模型能力：通过量化、蒸馏等技术，3B参数级模型已能胜任多模态、长文本及OCR任务，部分表现达到GPT-4o同级水平。
- 用户需求：用户要求AI助手具备离线可用性，不再依赖网络环境。
主要玩家布局：
- 终端厂商：苹果推出Apple Intelligence（约30亿参数），主打“端侧优先、云端兜底”；Google将Gemma Nano预装于Pixel系列并开放底层API。
- 科技巨头开源：微软Phi-3（3.8B参数）对标70B模型能力；Meta Llama 3.2推出专为端侧设计的1B/3B版本。
- 创业公司：国内面壁智能MiniCPM系列专注端侧，实现GPT-4o同级性能；Mistral早期以7B参数起家，后因微软入股面临主权与商业平衡难题。

挑战与行业结论

工程挑战：需适配安卓生态中上千种机型及碎片化硬件，调试繁琐且非算法工程师传统偏好领域。
产业链博弈：模型集成商面临手机厂、芯片厂等强势方的压价或替换风险，需平衡生态合作与自主权。
范式转变：上半场竞争聚焦参数规模，下半场竞争转向具体场景落地；离线设备（如手机、车载导航）证明了AI可用性优先级已超越纯云端能力。

阅读原文详情

事件概述

核心事实与数据

挑战与行业结论

准备好启动您的定制项目了吗？