SaaS-Bench 评测：Claude 完全通过率不足 4%，AI 全自动办公仍遥远

2026/05/25 11:29阅读量 8

UniPat AI 发布 SaaS-Bench 评测，使用 23 个真实 SaaS 系统和 106 个长程跨应用任务测试主流 GUI Agent。最强模型 Claude Opus 4.7 的完全通过率仅 3.8%，Kimi K2.5 和 Gemini 3.1 Pro 完全通过率为零。评测暴露了当前 Agent 在长程任务中越做越错、一步错步步错、缺少闭环验证、执行不稳定等结构性缺陷，表明 AI 全自动办公远未落地。

UniPat AI 发布了 SaaS-Bench 评测，旨在衡量 AI Agent 在真实办公场景中的实际工作能力。该评测使用 23 个通过 Docker 本地部署的开源 SaaS 系统，覆盖软件研发、业务财务、医疗管理、团队协作、农业供应链、独立媒体六大领域。每个系统均填充了真实业务数据。共设计 106 个任务，其中 93.4% 跨越至少两个应用，三应用任务占一半，97.3% 的文本任务操作步数超过 100 步，最长轨迹达 300 步以上。

评测采用严格的端到端完全通过分数（Resolved Score）和宽松的检查点分数（Checkpoint Score）。结果显示：最强的 Claude Opus 4.7 检查点分数 43.9%，但完全通过分数仅 3.8%——106 个任务仅完整通过 4 个。Kimi K2.5 和 Gemini 3.1 Pro 的完全通过分数为零。即使用 Pass@3 多次运行，整体提升也只有约 8 个百分点，且执行极不稳定。

SaaS-Bench 进一步分析了 Agent 的四种结构性失败模式：

越往后越做不对：所有模型通过率随任务推进持续下降，没有一个能在后半段维持前期表现。
一步错步步错：上游一个微小错误（如创建客户时误触个人客户逻辑）会导致下游 30% 的分数损失。
做完不检查：Agent 在意图层面认为步骤已正确执行，但实际页面状态并未改变，缺乏严谨的反思闭环。
执行不稳定：同一模型在相同初始状态下多次运行，分数范围从 0.00 到 0.68，路径依赖导致执行像赌博。

这些失败模式指向当前 Agent 范式的根本局限：缺少对持久状态的有效推理、操作后的闭环验证和错误恢复能力。评测认为，未来不是让 Agent 学会操作人类设计的软件，而是软件本身需要为 Agent 重新设计。

阅读原文详情

准备好启动您的定制项目了吗？