OpenAI翁家翌提出启发式学习:不更新参数,AI靠手搓代码实现强化学习
OpenAI核心研究员翁家翌提出强化学习新范式“启发式学习(HL)”,将决策策略从神经网络权重转化为可读的程序代码,通过GPT-5.4驱动的Codex自主迭代代码文件实现学习,无需梯度更新或神经网络训练。HL在Atari 57游戏和MuJoCo机器人连续控制任务中性能与PPO等主流算法持平,Breakout上取得864分满分。该方法天然具备可解释、抗遗忘、样本效率高的特点,但无法处理像素级识别任务。
事件概述
OpenAI核心研究员翁家翌提出强化学习新范式——启发式学习(Heuristic Learning, HL),全程无神经网络训练、无梯度更新,依靠GPT-5.4驱动的Codex自主迭代代码文件,在经典游戏Breakout上取得864分理论满分,并在Atari 57和MuJoCo连续控制任务中达到或超越主流深度强化学习算法水平。
核心原理
传统深度强化学习依赖神经网络参数存储策略,面临灾难性遗忘、决策黑箱、样本效率低下三大瓶颈。HL的思路是将智能体的决策策略从神经网络权重转化为可读的程序代码,把学习从梯度优化变成代码编辑。
HL框架中,AI维护的是一套完整的软件系统:
- 状态检测器(如“球在左上方,速度向右”)
- 规则逻辑(如“如果球将落在左侧,则向左移动”)
- 测试用例、回归检查、失败记录、版本历史
每次迭代,Codex审视系统表现、读取失败录像、分析日志并做出结构性调整。知识显式存储,旧能力不会被覆盖,而是封装成模块和测试,可调用、可验证、可传承。HL并不完全排斥梯度技术,内部组件(如模型预测控制MPC)仍用梯度做局部搜索,但梯度运算不用于神经网络训练与参数更新。
关键实验结果
- Atari 57基准测试:每款游戏设置两种观测模式,各自重复三轮实验,共342条独立编码轨迹。在统一交互步数下,HL的整体中位表现与PPO等主流深度强化学习算法持平。在Breakout、Asterix、Jamesbond等多款游戏中成绩超越人类玩家基准水平。
- MuJoCo机器人连续控制:四足机器人Ant任务,HL从基础节律步态规则逐步迭代加入姿态反馈、触地信号感知、短程模型预测等逻辑,最终综合评分突破6000,性能对标专业深度强化学习模型。HalfCheetah猎豹仿真任务中,HL跑出11836的平均高分。
局限性与未来方向
翁家翌指出,HL无法解决ImageNet这样从原始像素中完成目标识别、特征抽象的任务,这仍是深度神经网络的强项。HL的核心价值体现在策略持续迭代层面,适合环境动态变化、需要长期自适应的场景。未来最有前景的方向是将神经网络与HL有机融合:依托HL实时处理在线环境数据流、沉淀可复用经验,再将这些显性经验整理转化为高质量数据集,对神经网络做周期性迭代更新。
