Fireworks AI 正式接入 Microsoft Foundry,赋能企业级开源模型高效推理

Microsoft Foundry 宣布推出 Fireworks AI 的公共预览版,将高性能、低延迟的开源模型推理能力集成至 Azure 平台。该整合旨在解决企业在评估、部署和运营开源模型时面临的工具碎片化问题,提供统一的控制平面以支持从实验到生产的全生命周期管理。Fireworks AI 引擎目前每日处理超 13 万亿 token,并支持 DeepSeek V3.2、Kimi K2.5 及新发布的 MiniMax M2.5 等主流开源模型。

事件概述

Microsoft Foundry 正式开启 Fireworks AI 的公共预览,标志着企业可在单一平台上直接调用 Fireworks AI 的高性能开源模型推理服务。此次整合不仅提供了极速的推理能力,更将模型评估、定制、治理及运维纳入统一的企业级控制平面,解决了传统架构中需拼接多套工具导致的效率低下与扩展困难问题。

核心性能数据

Fireworks AI 作为开源模型推理领域的市场领导者,其引擎已具备以下规模表现:

  • 日处理量:超过 13 万亿(13T)token。
  • 并发请求:维持约 18 万次/秒的请求处理能力。
  • 生成速度:在大模型上生成速度超过 1,000 tokens/秒。
  • 基准测试:在 Artificial Analysis 等权威榜单中保持领先性能。

支持的模型资源

通过 Microsoft Foundry,开发者可立即访问以下开源模型(含新增支持):

  • DeepSeek V3.2
  • OpenAI gpt-oss-120b
  • Kimi K2.5
  • MiniMax M2.5(新增,支持无服务器模式)

关键功能特性

  1. 统一接入与快速评估:通过单个 Azure 端点即可获取最新开源模型,支持 Day-zero 级别的快速构建与评估。
  2. 灵活部署选项
    • Serverless(无服务器):按 Token 计费,适用于敏捷实验与波动负载。
    • PTU(预置吞吐量单元):适用于基线或自定义模型的稳定生产环境,提供可预测的性能保障。
  3. Bring Your Own Weights (BYOW):支持上传并注册在其他地方训练的量化或微调权重,无需更换现有的推理服务栈。
  4. 企业级治理与安全:集成端到端的代理开发、观测性监控、统一治理及合规工具,确保生产级应用的安全性与可靠性。

操作指引

开发者可通过以下步骤开始使用:

  1. 进入 Microsoft Foundry 模型目录,选择 Fireworks AI 开放模型集合。
  2. 选取托管于 Fireworks 的特定开源模型。
  3. 查看模型卡片详情。
  4. 选择部署模式(Serverless 或 PTU)并完成部署。
  5. 开始构建基于 Fireworks AI 的智能应用。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。