百度DuMate登顶PinchBench,超越Anthropic与OpenAI拿下Agent执行赛冠军
2026/05/08 18:36阅读量 38
百度搭子DuMate在PinchBench基准测试中包揽前两名,以93.3%和93.2%的总成绩超越Anthropic(89.0%)和OpenAI(91.6%),并在DeepResearch Bench上同样位列第一。其端云协同Harness架构是性能超越的关键。
事件概述
2026年5月8日凌晨,百度旗下的AI助手“搭子DuMate”在智能体评测基准PinchBench中登顶,包揽榜单前两名(93.3%和93.2%),超越Anthropic(89.0%)和OpenAI(91.6%),夺得“全球龙虾执行争霸赛”冠军。同日,在另一项评测DeepResearch Bench中,DuMate也以58.03的综合分排名第一。
核心信息
- PinchBench评测:该基准属于OpenClaw赛道,重点考察Agent在23个真实工作场景、147个任务中的多步推理、工具调用和任务闭环能力,从成功率、速度、成本三个维度排名。DuMate以明显优势领先。
- 技术基础:DuMate采用端云协同的Harness架构,任务到达时进行意图识别与敏感度判断:隐私相关操作本地执行,复杂推理上云。系统按需组装上下文,并基于历史执行轨迹持续迭代Skills,使不同底层模型均能在接近上限状态运行。
- DeepResearch Bench:该评测从洞察深度、内容准确性、可读性等维度衡量深度研究型Agent。DuMate的Deep Search与Deep Research双引擎负责跨平台语义检索、多轮推理与因果分析,支撑其榜首成绩。
- 上线与更新:DuMate自2026年3月上线以来保持每天一版的更新节奏,已通过信通院两项安全测评,均获最高等级。
