Auto Research时代,47个无标准答案的任务成为Agent能力必测榜
Einsia AI旗下Navers lab发布Frontier-Eng Bench,包含47个多学科工程优化任务,无标准答案,要求AI在闭环仿真中持续迭代。测试发现GPT5.4表现最稳,但所有模型远未饱和,且优化过程呈现幂律衰减规律——越往后提升越难、越慢。该Benchmark标志着Agent评测从“答对”转向“能否不断变强”,预示Auto Research进入迭代优化时代。
Einsia AI旗下Navers lab近期发布了一项新的Agent Benchmark——Frontier-Eng Bench,它不再让AI刷传统的知识题或代码题,而是要求AI像职业工程师一样,在没有标准答案的真实工程场景中完成闭环优化。
事件概述
研究团队设计了47个多学科交叉的硬核任务,覆盖水下机器人稳定性、动力电池快速充电、量子线路噪声控制、机械臂速度优化等领域。每个任务没有“满分”答案,只有“更逼近极限”的优化目标。AI需要自主提出方案、接入仿真器(simulator)、获取反馈与报错、修改参数和代码,然后重新运行,直到性能持续提升。
核心信息
- 任务特点:无法通过刷题或知识检索完成,必须依赖长程反馈中的自我修正。例如电池快充需同时平衡温度、电压、寿命和析锂风险。
- 模型表现:测试结果显示,GPT 5.4整体表现最稳定,但距离将Benchmark“做穿”仍有很大距离,所有模型都远未饱和。
- 关键规律:研究总结出两条幂律衰减规律——
- 改进频率 ∝ 1/迭代轮数;改进幅度 ∝ 1/改进次数。即前几轮提升最快,越往后越难。
- 并行多线程(宽度)能避免卡壳,但固定预算下每多开一条链就会压缩单线深度;真正工程突破更多依赖深度积累后的结构性跃迁。
值得关注
Frontier-Eng Bench首次系统性地测试AI的**“迭代优化能力”**,让Agent从“一次出答案”的模型转向“能在长程反馈中自我进化”的系统。研究团队认为,真正的智能依赖长期反馈闭环(类似AlphaGo的海量模拟),而AI的进化正从“辅助工具”走向能够不知疲倦地“死磕”工程极限的“自优化引擎”。
论文标题:Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization
项目主页:lab.einsia.ai/frontier-eng
Arxiv:arxiv.org/abs/2604.12290
