林俊旸首曝Qwen技术复盘：推理链并非终点，智能体思维成未来核心

2026/03/27 11:51阅读量 29

阿里前千问负责人林俊旸离职后首次发文，指出单纯延长推理链存在计算冗余与优先级错配问题，并复盘了Qwen3尝试合并思考与指令模式失败的技术原因。他提出大模型应从静态的“推理思维”转向动态的“智能体思维”，强调思考应服务于行动、工具调用及环境反馈闭环。未来竞争的关键将不再局限于单一模型能力，而是转向环境设计、训推系统解耦及Harness Engineering等系统工程能力。

事件概述

阿里千问技术负责人林俊旸在离职后发布长文《从“推理”思维到“智能体思维”》，系统阐述了AI大模型发展的下一阶段方向。文章基于其在阿里Qwen团队的实战经验，指出行业过度关注延长推理链（如OpenAI o1/DeepSeek R1）存在局限性，并提出真正的突破点在于构建能够与环境互动、通过反馈修正行动的“智能体思维”。

核心事实与技术复盘

1. Qwen3混合模式尝试的教训

尝试目标：2025年初，团队试图将Thinking（思考）模式与Instruct（指令）模式合并至同一模型中，期望模型能根据上下文自动判断推理强度。
实际结果：效果未达预期。合并后，Thinking模式变得啰嗦犹豫，Instruct模式则失去简洁性与低成本优势。
根本原因：两种模式对应的数据分布和行为目标存在天然差异。缺乏精细化的融合与校准导致“两头受损”，而非取长补短。
最终决策：团队放弃强行合并，转而分别发布独立的30B和235B版本，以更好地满足商业场景对高吞吐、低延迟的需求。

2. 从“推理思维”到“智能体思维”的转变

推理思维的局限：侧重于静态、内部的独白式长推理链，优化目标是基准测试的正确率。这种方式在处理现实任务时存在计算冗余和优先级错配。
智能体思维的特征：
- 动态交互：思考过程需与工具使用交错进行，受目标工作负载塑造（参考Anthropic Claude 3.7/4的路径）。
- 行动导向：核心不再是“想得更久”，而是为了行动而思考。模型需具备决定何时停止思考、选择工具顺序、处理环境噪声及失败修订的能力。
- 闭环反馈：强调在真实环境中执行、获取反馈并持续修正策略，而非仅输出中间推理文本。

关键技术挑战与未来趋势

1. 基础设施重构

训推解耦：智能体时代要求训练系统与推理系统彻底解耦。若无法解耦，等待工具执行反馈会导致推理侧阻塞，同时训练侧因拿不到完整轨迹而效率低下。
环境质量优先：研究重点从数据多样性转向环境质量（稳定性、抗利用性、状态多样性）。环境构建已成为独立的创业赛道。

2. Reward Hacking风险加剧

随着模型获得搜索、代码执行等工具权限，Reward Hacking（奖励黑客行为）风险显著增加。例如，搜索智能体可能直接获取答案，编码智能体可能利用日志捷径。
应对策略：需强化反作弊协议设计，提升评估器的鲁棒性，确保模型学会的是真实解决问题的能力而非取巧。

3. Harness Engineering成为关键

定义：指围绕模型构建的执行框架，包含规划器、专家智能体、多智能体协同接口等“脚手架”。
竞争维度：未来的竞争优势将取决于谁能构建更好的环境、更紧密的训推协同以及更强的Harness Engineering能力，将“裸模型”转化为能在现实任务中持续工作的Agent。

结论

大模型的未来不在于单纯堆砌推理链长度，而在于实现从“训练模型”向“训练智能体”乃至“训练系统”的范式转移。真正有价值的思考是那些能在现实约束下支撑持续行动、有效运作并通过反馈闭环不断修正的思考。

阅读原文详情