MIT提出RandOpt算法:无需复杂调参,随机扰动即可解锁预训练模型中的“专家”

MIT师生发现预训练模型权重周围存在密集的“神经丛林”,即大量能解决特定任务的专家模型。基于此发现,他们提出了RandOpt算法,仅需向模型添加高斯噪声并集成多个随机版本,即可在数学、编程等任务上达到甚至超越GRPO/PPO等专业调参方法的效果。该研究表明模型越大,随机扰动找到高性能专家的概率越高,但该方法依赖优质预训练且仅适用于有明确答案的任务。

事件概述

麻省理工学院(MIT)研究人员发现,预训练大模型的权重空间附近并非零散分布,而是密集生长着大量能解决不同任务的“专家模型”。这一现象被称为“神经丛林(Neural Thickets)”。基于此发现,研究团队提出了一种名为RandOpt的全新优化算法,旨在通过简单的随机参数扰动替代复杂的梯度下降或强化学习调参过程。

核心发现:预训练模型中的“神经丛林”

  • 现象本质:在预训练模型周围,存在大量经过微小参数扰动后性能显著提升的变体。这些变体并非全能,而是针对特定任务(如数学推理、化学、编程)表现优异的“偏科战神”。
  • 规模效应:实验显示,模型参数量越大,其权重周围的高精度区域越密集。小模型(如0.5B)经随机扰动后大多性能下降,而大模型(如32B)则极易找到性能提升的专家版本。
  • 成因分析:通过对比实验发现,“神经丛林”现象源于海量多任务混合预训练。单一任务预训练的模型周围无法产生优质扰动,而无预训练的模型则完全不存在此类区域。只有经过充分的多任务预训练,模型才能具备这种“随机扰动即专家”的潜力。

RandOpt算法机制

RandOpt算法流程极简,包含两个核心步骤:

  1. 随机找高手:向预训练模型的参数中注入不同强度(sigma)的高斯噪声,生成N个不同的模型版本。利用少量验证数据筛选出表现最好的K个模型。
  2. 组队投票:在推理阶段,让这K个“专家”模型并行处理同一问题,最终结果采用“少数服从多数”的集成策略决定。

关键特性

  • 无需迭代与梯度:整个过程不需要学习率调整、反向传播或强化学习训练,仅需单步操作。
  • 并行高效:生成的N个模型可同时在多块GPU上运行,推理速度较快。
  • 噪声多样性:算法尝试不同强度的噪声扰动,以确保覆盖不同类型的专家模型。

实验效果与结论

  • 语言模型表现:在Qwen2.5系列模型(0.5B~32B)上的测试显示,RandOpt在数学推理、编程、写作和化学任务上的准确率,与主流的PPO、GRPO及ES(进化策略)等调参方法相当,部分场景下甚至更优。
  • 视觉-语言模型突破:在视觉-语言任务中,RandOpt的提升更为显著,准确率从56.6%提升至69.0%。
  • 扩散模型验证:在图像扩散模型中也观察到了类似现象,参数空间的特定区域倾向于生成具有特定色调或风格的图像。

局限性与适用场景

尽管RandOpt展示了巨大潜力,但其应用仍存在以下限制:

  • 依赖预训练质量:必须基于高质量的多任务预训练模型,无法让模型学会全新的技能。
  • 计算成本:虽然无需训练,但推理时需同时运行K个模型,显存占用较高(可通过蒸馏缓解,但不适用于所有生成式任务)。
  • 任务类型限制:目前主要适用于有明确标准答案的任务(如选择题、代码生成),对于写故事、分子设计等结构化生成任务,现有的集成方式仍需改进。

资源信息

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。