SaaS-Bench 评测:Claude 完全通过率不足 4%,AI 全自动办公仍遥远
UniPat AI 发布 SaaS-Bench 评测,使用 23 个真实 SaaS 系统和 106 个长程跨应用任务测试主流 GUI Agent。最强模型 Claude Opus 4.7 的完全通过率仅 3.8%,Kimi K2.5 和 Gemini 3.1 Pro 完全通过率为零。评测暴露了当前 Agent 在长程任务中越做越错、一步错步步错、缺少闭环验证、执行不稳定等结构性缺陷,表明 AI 全自动办公远未落地。
UniPat AI 发布了 SaaS-Bench 评测,旨在衡量 AI Agent 在真实办公场景中的实际工作能力。该评测使用 23 个通过 Docker 本地部署的开源 SaaS 系统,覆盖软件研发、业务财务、医疗管理、团队协作、农业供应链、独立媒体六大领域。每个系统均填充了真实业务数据。共设计 106 个任务,其中 93.4% 跨越至少两个应用,三应用任务占一半,97.3% 的文本任务操作步数超过 100 步,最长轨迹达 300 步以上。
评测采用严格的端到端完全通过分数(Resolved Score)和宽松的检查点分数(Checkpoint Score)。结果显示:最强的 Claude Opus 4.7 检查点分数 43.9%,但完全通过分数仅 3.8%——106 个任务仅完整通过 4 个。Kimi K2.5 和 Gemini 3.1 Pro 的完全通过分数为零。即使用 Pass@3 多次运行,整体提升也只有约 8 个百分点,且执行极不稳定。
SaaS-Bench 进一步分析了 Agent 的四种结构性失败模式:
- 越往后越做不对:所有模型通过率随任务推进持续下降,没有一个能在后半段维持前期表现。
- 一步错步步错:上游一个微小错误(如创建客户时误触个人客户逻辑)会导致下游 30% 的分数损失。
- 做完不检查:Agent 在意图层面认为步骤已正确执行,但实际页面状态并未改变,缺乏严谨的反思闭环。
- 执行不稳定:同一模型在相同初始状态下多次运行,分数范围从 0.00 到 0.68,路径依赖导致执行像赌博。
这些失败模式指向当前 Agent 范式的根本局限:缺少对持久状态的有效推理、操作后的闭环验证和错误恢复能力。评测认为,未来不是让 Agent 学会操作人类设计的软件,而是软件本身需要为 Agent 重新设计。
