Fireworks AI 正式接入 Microsoft Foundry，赋能企业级开源模型高效推理

2026/03/11 15:00阅读量 16

Microsoft Foundry 宣布推出 Fireworks AI 的公共预览版，将高性能、低延迟的开源模型推理能力集成至 Azure 平台。该整合旨在解决企业在评估、部署和运营开源模型时面临的工具碎片化问题，提供统一的控制平面以支持从实验到生产的全生命周期管理。Fireworks AI 引擎目前每日处理超 13 万亿 token，并支持 DeepSeek V3.2、Kimi K2.5 及新发布的 MiniMax M2.5 等主流开源模型。

事件概述

Microsoft Foundry 正式开启 Fireworks AI 的公共预览，标志着企业可在单一平台上直接调用 Fireworks AI 的高性能开源模型推理服务。此次整合不仅提供了极速的推理能力，更将模型评估、定制、治理及运维纳入统一的企业级控制平面，解决了传统架构中需拼接多套工具导致的效率低下与扩展困难问题。

核心性能数据

Fireworks AI 作为开源模型推理领域的市场领导者，其引擎已具备以下规模表现：

日处理量：超过 13 万亿（13T）token。
并发请求：维持约 18 万次/秒的请求处理能力。
生成速度：在大模型上生成速度超过 1,000 tokens/秒。
基准测试：在 Artificial Analysis 等权威榜单中保持领先性能。

支持的模型资源

通过 Microsoft Foundry，开发者可立即访问以下开源模型（含新增支持）：

DeepSeek V3.2
OpenAI gpt-oss-120b
Kimi K2.5
MiniMax M2.5（新增，支持无服务器模式）

关键功能特性

统一接入与快速评估：通过单个 Azure 端点即可获取最新开源模型，支持 Day-zero 级别的快速构建与评估。
灵活部署选项：
- Serverless（无服务器）：按 Token 计费，适用于敏捷实验与波动负载。
- PTU（预置吞吐量单元）：适用于基线或自定义模型的稳定生产环境，提供可预测的性能保障。
Bring Your Own Weights (BYOW)：支持上传并注册在其他地方训练的量化或微调权重，无需更换现有的推理服务栈。
企业级治理与安全：集成端到端的代理开发、观测性监控、统一治理及合规工具，确保生产级应用的安全性与可靠性。

操作指引

开发者可通过以下步骤开始使用：

进入 Microsoft Foundry 模型目录，选择 Fireworks AI 开放模型集合。
选取托管于 Fireworks 的特定开源模型。
查看模型卡片详情。
选择部署模式（Serverless 或 PTU）并完成部署。
开始构建基于 Fireworks AI 的智能应用。

阅读原文详情

事件概述

核心性能数据

支持的模型资源

关键功能特性

操作指引

准备好启动您的定制项目了吗？