百度DuMate登顶PinchBench，超越Anthropic与OpenAI拿下Agent执行赛冠军

2026/05/08 18:36阅读量 38

百度搭子DuMate在PinchBench基准测试中包揽前两名，以93.3%和93.2%的总成绩超越Anthropic（89.0%）和OpenAI（91.6%），并在DeepResearch Bench上同样位列第一。其端云协同Harness架构是性能超越的关键。

事件概述

2026年5月8日凌晨，百度旗下的AI助手“搭子DuMate”在智能体评测基准PinchBench中登顶，包揽榜单前两名（93.3%和93.2%），超越Anthropic（89.0%）和OpenAI（91.6%），夺得“全球龙虾执行争霸赛”冠军。同日，在另一项评测DeepResearch Bench中，DuMate也以58.03的综合分排名第一。

核心信息

PinchBench评测：该基准属于OpenClaw赛道，重点考察Agent在23个真实工作场景、147个任务中的多步推理、工具调用和任务闭环能力，从成功率、速度、成本三个维度排名。DuMate以明显优势领先。
技术基础：DuMate采用端云协同的Harness架构，任务到达时进行意图识别与敏感度判断：隐私相关操作本地执行，复杂推理上云。系统按需组装上下文，并基于历史执行轨迹持续迭代Skills，使不同底层模型均能在接近上限状态运行。
DeepResearch Bench：该评测从洞察深度、内容准确性、可读性等维度衡量深度研究型Agent。DuMate的Deep Search与Deep Research双引擎负责跨平台语义检索、多轮推理与因果分析，支撑其榜首成绩。
上线与更新：DuMate自2026年3月上线以来保持每天一版的更新节奏，已通过信通院两项安全测评，均获最高等级。

阅读原文详情

事件概述

核心信息

准备好启动您的定制项目了吗？