Fireworks AI 正式接入 Microsoft Foundry,赋能企业级开源模型高效推理
Microsoft Foundry 宣布推出 Fireworks AI 的公共预览版,将高性能、低延迟的开源模型推理能力集成至 Azure 平台。该整合旨在解决企业在评估、部署和运营开源模型时面临的工具碎片化问题,提供统一的控制平面以支持从实验到生产的全生命周期管理。Fireworks AI 引擎目前每日处理超 13 万亿 token,并支持 DeepSeek V3.2、Kimi K2.5 及新发布的 MiniMax M2.5 等主流开源模型。
事件概述
Microsoft Foundry 正式开启 Fireworks AI 的公共预览,标志着企业可在单一平台上直接调用 Fireworks AI 的高性能开源模型推理服务。此次整合不仅提供了极速的推理能力,更将模型评估、定制、治理及运维纳入统一的企业级控制平面,解决了传统架构中需拼接多套工具导致的效率低下与扩展困难问题。
核心性能数据
Fireworks AI 作为开源模型推理领域的市场领导者,其引擎已具备以下规模表现:
- 日处理量:超过 13 万亿(13T)token。
- 并发请求:维持约 18 万次/秒的请求处理能力。
- 生成速度:在大模型上生成速度超过 1,000 tokens/秒。
- 基准测试:在 Artificial Analysis 等权威榜单中保持领先性能。
支持的模型资源
通过 Microsoft Foundry,开发者可立即访问以下开源模型(含新增支持):
- DeepSeek V3.2
- OpenAI gpt-oss-120b
- Kimi K2.5
- MiniMax M2.5(新增,支持无服务器模式)
关键功能特性
- 统一接入与快速评估:通过单个 Azure 端点即可获取最新开源模型,支持 Day-zero 级别的快速构建与评估。
- 灵活部署选项:
- Serverless(无服务器):按 Token 计费,适用于敏捷实验与波动负载。
- PTU(预置吞吐量单元):适用于基线或自定义模型的稳定生产环境,提供可预测的性能保障。
- Bring Your Own Weights (BYOW):支持上传并注册在其他地方训练的量化或微调权重,无需更换现有的推理服务栈。
- 企业级治理与安全:集成端到端的代理开发、观测性监控、统一治理及合规工具,确保生产级应用的安全性与可靠性。
操作指引
开发者可通过以下步骤开始使用:
- 进入 Microsoft Foundry 模型目录,选择 Fireworks AI 开放模型集合。
- 选取托管于 Fireworks 的特定开源模型。
- 查看模型卡片详情。
- 选择部署模式(Serverless 或 PTU)并完成部署。
- 开始构建基于 Fireworks AI 的智能应用。
