港大黄超：为Agent重新设计数字世界，CLI才是AI原生的交互方式

2026/05/31 11:54阅读量 3

港大助理教授黄超在2026中国AIGC产业峰会上提出，Agent时代不应让AI适应人类工具，而应让软件说AI的语言。他介绍了轻量开源Agent nanobot（下载量超20万次），并推出CLI-Anything框架，主张CLI比GUI更适合Agent。团队还通过8个Agent协调8张H100显卡进行分布式训练实验，验证了Agent Swarm的可行性，同时指出存在最优集群规模。

核心观点

Agent架构本质是ReAct循环：通过推理（Reasoning）规划、行动（Action）调用工具、观察（Observation）获取反馈，形成一个while循环。通用Agent的能力来自这一基本认知循环的有效实现，而非复杂架构。
轻量化开源Agent——nanobot：针对OpenClaw代码量过大（超100万行），团队反其道而行，开源了极简通用Agent nanobot。下载量已超20万次，被DeepSeek推荐为全球15个Agent之一，曾登上OpenRouter通用Agent榜单第四名。
长程任务三大挑战：①鲁棒性——复杂场景下任何一步错误都可能导致整体失败；②自进化——需从真实任务中学习，降低token消耗；③持续性环境与上下文对齐——sandbox不适合长程任务，需要完整计算环境，且人类难以提供完美文档。

CLI-Anything：让软件说AI的语言

传统Computer Use依赖GUI模仿人类操作，但成本高、可靠性差。黄超认为CLI才是Agent-native的交互方式。
团队开发CLI-Anything，将专业软件（如3D建模、设计工具、多媒体编辑）重新包装为命令行接口，使Agent可直接驱动。目前已建立CLI Hub，涵盖80个软件、31个分类。
未来软件使用应是CLI+GUI混合模式：Agent通过CLI高效完成任务，人类通过GUI享受直观体验。

Agent自进化与Swarm实验

自进化三条路线：适应环境（workflow优化）、技能沉淀（总结可复用skill）、参数更新。前两者泛化性差，团队选择skill-based路线并构建Open Space。
在44个行业220个任务上测试，token消耗显著减少，任务完成度提升。
Agent Swarm实验：用8个Agent协调8张H100显卡训练大语言模型，23小时内模型性能提升6%，相当于一名博士3周的工作量。但发现3-5个Agent效果最佳，更多Agent反而出现协调开销超过增益的临界点，说明Agent数量存在最优规模，且瓶颈不在沟通成本，而在任务分解、冲突协调和精准验证。
该实验验证了Agent协同在科研试错中的潜力（一周能试几十种算法），但关键挑战在于“快速产出低质量假设”的陷阱——Agent加速试错却无法加速验证。

总结

黄超团队的整体布局从单体Agent（nanobot）到原生交互（CLI-Anything）再到Agent协同与自进化，旨在构建完整的Agent生态。他强调未来Agent的价值在于生态协同而非单点突破。

阅读原文详情

核心观点

CLI-Anything：让软件说AI的语言

Agent自进化与Swarm实验

总结

准备好启动您的定制项目了吗？