智谱唐杰谈AI长周期任务:从工具到劳动力的关键一步
2026/05/14 15:29阅读量 2
智谱创始人唐杰在X平台发文指出,2026年AI最可能的突破点在于模型能持续完成复杂多步骤的“长周期任务”,而非单次对话智能。他分析关键技术突破(记忆、持续学习、自我判断)使这一方向可行,并认为一旦AI能自主交付结果,将冲击整个执行层,催生“无人公司”和LLM OS。智谱GLM-5.1在SWE-Bench Pro上已领先,公司正战略押注此赛道。
事件概述
智谱创始人兼首席科学家唐杰近日在X平台发布长文,系统阐述AI产业的下一个关键方向——长周期任务(Long-Horizon Tasks)。他认为,2026年AI的突破点不在于模型变得更聪明,而在于模型能持续规划、试错、判断并交付复杂多步骤任务。一旦实现,AI将不再只是辅助工具,而是真正成为替代人类执行层的“劳动力”,甚至可能改写整个行业的用人模式。
核心信息
- 长周期任务的定义:目标明确但路径不确定,需要数小时到数周持续推进、反复试错的任务,如漏洞挖掘(阅读代码、搭建环境、构造攻击、验证有效性等)。这类任务不依赖单次智力,而依赖于持续的执行力。
- 三大技术突破使该方向可行:
- 记忆:百万级上下文窗口和RAG技术让模型能在长时间任务中保持对项目背景和中间状态记忆(如Claude Opus 4.7支持1M token,GLM-5.1支持200K token)。
- 持续学习:模型更新周期缩短至月度,接近实时吸收新工具、新规则。
- 自我判断与进化:模型生成合成数据自我训练(推测Claude、GPT-5.5已有基础自训练能力),在无人类监督时能判断方案可靠性并自动调整。
- 智谱的进展:其GLM-5.1在SWE-Bench Pro上达到58.4%,超过GPT-5.4(57.7%)和Claude Opus 4.6(57.3%)。GLM-5.1可连续独立运行8小时,单次任务稳定执行1200-1700步操作,无需人工干预。
- 从OPC到NPC:唐杰提出“一人公司”(OPC,人+AI工具)将向“无人公司”(NPC,AI系统+人类监督)演进。人从执行者变为目标设定者、资源配置者和责任承担者,中间执行层岗位将被替代。
- LLM OS概念:未来应用按需生成,用户不再管理文件、窗口和APP,只需管理任务、权限和结果。系统根据自然语言意图临时组合工具完成目标,挑战现有操作系统底层逻辑。
值得关注的趋势与挑战
- 监管难题:自主Agent在执行任务时造成损失的责任归属尚不明确。2026年4月PocketOS基于Claude的Cursor agent误删生产数据库事件已暴露风险。
- 失业与社会重构:长周期Agent替代的不是某个环节,而是整套“把事情推进到结果”的执行能力,可能引发比过去更广泛的社会分工改写。
- 工程化加速:唐杰判断长周期任务能力更多依赖工程“tricks”而非学术创新,这意味着迭代速度会比预期更快。智谱走“可解释、可监管”的中间路线,在自训练与人类控制间寻求平衡。
- 生态构建:智谱通过开源策略吸引开发者贡献插件、企业提供真实场景,以打造长周期任务系统生态。该方向尚无明确领跑者,市场格局未定。
