Auto Research时代，47个无标准答案的任务成为Agent能力必测榜

2026/05/13 12:08阅读量 3

Einsia AI旗下Navers lab发布Frontier-Eng Bench，包含47个多学科工程优化任务，无标准答案，要求AI在闭环仿真中持续迭代。测试发现GPT5.4表现最稳，但所有模型远未饱和，且优化过程呈现幂律衰减规律——越往后提升越难、越慢。该Benchmark标志着Agent评测从“答对”转向“能否不断变强”，预示Auto Research进入迭代优化时代。

Einsia AI旗下Navers lab近期发布了一项新的Agent Benchmark——Frontier-Eng Bench，它不再让AI刷传统的知识题或代码题，而是要求AI像职业工程师一样，在没有标准答案的真实工程场景中完成闭环优化。

事件概述

研究团队设计了47个多学科交叉的硬核任务，覆盖水下机器人稳定性、动力电池快速充电、量子线路噪声控制、机械臂速度优化等领域。每个任务没有“满分”答案，只有“更逼近极限”的优化目标。AI需要自主提出方案、接入仿真器（simulator）、获取反馈与报错、修改参数和代码，然后重新运行，直到性能持续提升。

核心信息

任务特点：无法通过刷题或知识检索完成，必须依赖长程反馈中的自我修正。例如电池快充需同时平衡温度、电压、寿命和析锂风险。
模型表现：测试结果显示，GPT 5.4整体表现最稳定，但距离将Benchmark“做穿”仍有很大距离，所有模型都远未饱和。
关键规律：研究总结出两条幂律衰减规律——
- 改进频率 ∝ 1/迭代轮数；改进幅度 ∝ 1/改进次数。即前几轮提升最快，越往后越难。
- 并行多线程（宽度）能避免卡壳，但固定预算下每多开一条链就会压缩单线深度；真正工程突破更多依赖深度积累后的结构性跃迁。

值得关注

Frontier-Eng Bench首次系统性地测试AI的**“迭代优化能力”**，让Agent从“一次出答案”的模型转向“能在长程反馈中自我进化”的系统。研究团队认为，真正的智能依赖长期反馈闭环（类似AlphaGo的海量模拟），而AI的进化正从“辅助工具”走向能够不知疲倦地“死磕”工程极限的“自优化引擎”。

论文标题：Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization
项目主页：lab.einsia.ai/frontier-eng
Arxiv：arxiv.org/abs/2604.12290

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？