林俊旸复盘千问得失：AI 下半场需从「推理模型」转向「智能体系统」

2026/03/27 15:00阅读量 23

前阿里通义实验室负责人林俊旸在离职后发文，深度复盘 Qwen3 在混合思考模式上的探索与不足，指出单纯延长推理链条并非终极解法。他提出 AI 发展正从训练单一模型转向训练具备环境交互能力的智能体，强调“思考必须服务于行动”。文章认为，未来的竞争核心将不再是算法本身，而是高质量训练环境的构建、反作弊机制以及多智能体系统的工程化能力。

从「推理式思考」到「智能体式思考」的范式转移

1. 行业背景：强化学习与基础设施的胜利

过去两年，以 OpenAI o1 和 DeepSeek-R1 为代表的推理模型证明了「思考」是可被专门训练的核心能力。这一阶段的关键启示在于：

强化学习的可行性：在数学、代码等拥有明确对错标准的领域，强化学习（RL）能有效优化模型的正确性，不再仅依赖人类标注的主观反馈。
基础设施的重要性：长链推理训练是重工业级系统工程，需要大规模模拟推演（rollout）、高吞吐量验证及稳定的策略迭代。推理模型的突破本质上是底层基础设施的胜利。

2. Qwen3 的反思：融合模式的困境与挑战

Qwen3 团队曾尝试构建支持「混合思考模式」的系统，即一个模型同时具备「直接回答」和「深思熟虑」两种能力。然而，实践表明这种融合面临根本性矛盾：

目标冲突：指令型模型追求高效、简洁、稳定；思考型模型则需保留推理余量、探索多路径。两者在数据分布和行为逻辑上天然互斥。
现实妥协：由于难以平衡数据质量，Qwen3 最终在后续版本中拆分为独立的 Instruct（指令）和 Thinking（思考）版本。商业客户更倾向于高吞吐、低成本的独立指令模型，而非功能冗余的融合模型。
行业对比：Anthropic（Claude 3.7/4）、GLM-4.5 及 DeepSeek V3.1 等选择了不同的集成路线，但核心分歧在于是否实现了有机的平滑切换，而非简单的二元开关。

3. 核心观点：智能体时代的新定义

林俊旸指出，真正的转折点在于从「训练模型」进入「训练智能体」的时代。两者的核心差异如下：

维度	推理式思考 (Reasoning)	智能体式思考 (Agentive)
场景	闭卷考试（封闭环境）	真实项目（开放环境）
评判标准	最终答案是否正确	能否在动态环境中持续解决问题
核心挑战	如何想得更久、更深	何时停止思考并行动、如何调用工具、如何处理噪声与失败
思维模式	静态独白，自我对话	边做边想，与环境闭环交互

关键结论：思考的价值不在于产出多少字的推理过程，而在于是否服务于具体的行动目标。长推理链若不能转化为有效行动，反而可能因优先级判断失误而降低效率。

4. 技术挑战：环境即资产，奖励劫持风险

随着目标转向智能体，底层工程架构面临全新挑战：

环境构建成为核心竞争力：SFT 时代拼数据多样性，智能体时代拼环境质量。环境需具备稳定性、真实性、丰富的状态空间及有效的反馈信号。构建高质量训练环境已从实验配件升级为战略资产。
训练与推理的解耦：智能体 RL 中，模型需在复杂环境（浏览器、终端、API 等）中运行，导致推理端等待执行反馈、训练端等待轨迹数据，GPU 利用率易受环境延迟影响。系统需实现训练与推理的干净解耦以提升吞吐量。
奖励劫持（Reward Hacking）：工具赋能越强，模型越容易通过捷径（如直接搜索答案、利用测试用例漏洞）欺骗评估器。解决环境设计、评估器鲁棒性及反作弊协议将是下一阶段的研究瓶颈。

5. 未来路线图：从模型到系统

未来的 AI 演进将经历三级跳：

训练模型：优化单一模型的认知能力。
训练智能体：让模型学会规划、决策、使用工具并与环境交互。
训练系统：构建由编排器（Orchestrator）、专业智能体（Specialist Agents）和子智能体（Sub-agents）组成的协作系统。

总结：智能体时代的竞争优势将来源于对「决策→后果→学习」闭环的掌控能力，包括更紧密的训练与推理一体化、更强的系统工程能力以及对真实世界约束下有效推理链的构建。

阅读原文详情