港大黄超:为Agent重新设计数字世界,CLI才是AI原生的交互方式
2026/05/31 11:54阅读量 3
港大助理教授黄超在2026中国AIGC产业峰会上提出,Agent时代不应让AI适应人类工具,而应让软件说AI的语言。他介绍了轻量开源Agent nanobot(下载量超20万次),并推出CLI-Anything框架,主张CLI比GUI更适合Agent。团队还通过8个Agent协调8张H100显卡进行分布式训练实验,验证了Agent Swarm的可行性,同时指出存在最优集群规模。
核心观点
- Agent架构本质是ReAct循环:通过推理(Reasoning)规划、行动(Action)调用工具、观察(Observation)获取反馈,形成一个while循环。通用Agent的能力来自这一基本认知循环的有效实现,而非复杂架构。
- 轻量化开源Agent——nanobot:针对OpenClaw代码量过大(超100万行),团队反其道而行,开源了极简通用Agent nanobot。下载量已超20万次,被DeepSeek推荐为全球15个Agent之一,曾登上OpenRouter通用Agent榜单第四名。
- 长程任务三大挑战:①鲁棒性——复杂场景下任何一步错误都可能导致整体失败;②自进化——需从真实任务中学习,降低token消耗;③持续性环境与上下文对齐——sandbox不适合长程任务,需要完整计算环境,且人类难以提供完美文档。
CLI-Anything:让软件说AI的语言
- 传统Computer Use依赖GUI模仿人类操作,但成本高、可靠性差。黄超认为CLI才是Agent-native的交互方式。
- 团队开发CLI-Anything,将专业软件(如3D建模、设计工具、多媒体编辑)重新包装为命令行接口,使Agent可直接驱动。目前已建立CLI Hub,涵盖80个软件、31个分类。
- 未来软件使用应是CLI+GUI混合模式:Agent通过CLI高效完成任务,人类通过GUI享受直观体验。
Agent自进化与Swarm实验
- 自进化三条路线:适应环境(workflow优化)、技能沉淀(总结可复用skill)、参数更新。前两者泛化性差,团队选择skill-based路线并构建Open Space。
- 在44个行业220个任务上测试,token消耗显著减少,任务完成度提升。
- Agent Swarm实验:用8个Agent协调8张H100显卡训练大语言模型,23小时内模型性能提升6%,相当于一名博士3周的工作量。但发现3-5个Agent效果最佳,更多Agent反而出现协调开销超过增益的临界点,说明Agent数量存在最优规模,且瓶颈不在沟通成本,而在任务分解、冲突协调和精准验证。
- 该实验验证了Agent协同在科研试错中的潜力(一周能试几十种算法),但关键挑战在于“快速产出低质量假设”的陷阱——Agent加速试错却无法加速验证。
总结
黄超团队的整体布局从单体Agent(nanobot)到原生交互(CLI-Anything)再到Agent协同与自进化,旨在构建完整的Agent生态。他强调未来Agent的价值在于生态协同而非单点突破。
