十款国产AI Agent横评:云端稳定与本地灵活之争,谁更胜任复杂任务?
2026/04/14 18:25阅读量 7
本文对智谱、阿里、百度、阶跃星辰等厂商的10款国产AI Agent(“小龙虾”)产品进行了深度测评。测试涵盖定时日报生成、文生图、Skill生态调用及邮箱API对接等场景,发现多数产品能胜任简单任务,但在处理复杂流程时稳定性差异显著。阿里云JVS Claw在云端部署中表现最稳,阶跃星辰StepClaw与智谱AutoClaw在本地端各具优势,而WorkBuddy和ArkClaw因频繁报错体验较差。
事件概述
近期,随着OpenClaw引发的热潮,国内涌现出多款旨在替代人工的AI Agent产品(俗称“国产小龙虾”)。光锥智能选取了市面上10款主流产品进行横向测评,旨在从普通用户视角评估其在实际工作场景中的可用性、稳定性及复杂任务处理能力。
核心信息
1. 安装与配置门槛大幅降低
- 云端版本:基本实现开箱即用,无需技术背景,通过对话框即可交互。
- 个性化设置:飞书、阶跃、百度等产品支持“性格配置”(Soul.md),允许用户定义AI的称呼与语气,提升交互真实感。
- 移动端接入:微信、飞书、QQ等IM平台提供扫码一键接入功能,解决了远程办公助手的关键痛点。
2. 基础任务表现(日报与信息搜集)
- 准时性:以“首次即准时完成”为标准,仅智谱(AutoClaw)、KimiClaw、MiniMax、QClaw四款产品达标;其余产品常需人工干预修正。
- 内容质量:智谱、阿里(JVS Claw)、百度(Duclaw)生成的日报信息丰富且准确;KimiClaw曾出现将旧闻误作新闻的事实性错误。
- 云端 vs 本地:云端版本不受设备开关机或断网影响,推送更稳定;本地版本若设备离线则无法执行定时任务。
3. 进阶能力与Skill生态
- 文生图测试:阿里JVS Claw表现最佳,成功调用Skill库生成符合要求的卡通风格图片;其他产品虽能生成图片,但风格偏差较大。
- Skill生态现状:
- 腾讯、阶跃星辰、猎豹已自建Skill商店(如阶跃拥有5000+ Skills)。
- 部分产品(如QClaw、MiniMax)在理解“寻找对标产品”指令时存在逻辑偏差。
- 关键技能类型包括:Creator(自定义)、Find Skill(自动搜索安装)、Vetter(安全审查)。
- 复杂任务执行(邮箱API对接):
- 阶跃星辰 StepClaw:主动编写网页脚本绕过Token获取限制,最终成功连接,但过程耗时较长。
- 阿里 JVS Claw & 百度 Duclaw:采用Google应用专用密码方案,一次性成功并直接输出总结结果。
- 失败案例:KimiClaw脚本无法运行;智谱AutoClaw依赖命令行导致无响应;EasyClaw受环境限制多次失败。
4. 稳定性与用户体验对比
| 梯队 | 代表产品 | 评价摘要 |
|---|---|---|
| 第一梯队 | 阿里云 JVS Claw (云端) | 稳定性极高,几乎无报错;社交功能完善,支持直接上传图片;具备云电脑模式模拟本地任务。 |
| 智谱 AutoClaw (本地) | 稳定性优秀,信息汇总任务体验一流;但部分操作依赖命令行。 | |
| 阶跃星辰 StepClaw (本地) | 日报与邮件任务出色,具备自主编写工具的能力;但整体稳定性稍逊,偶有报错。 | |
| 第二梯队 | KimiClaw, MaxClaw, QClaw, DuClaw | 稳定性尚可,但任务执行效率中等;QClaw和DuClaw偶发无反馈或响应延迟。 |
| 第三梯队 | WorkBuddy, ArkClaw | 体验较差,频繁大规模报错或长时间无响应,难以持续使用。 |
5. 关键结论
- 模型与Harness决定上限:产品的核心差异在于底层模型的理解能力及工程化配置(Harness)的自我修复能力。“便宜没好货”现象在AI领域同样存在,高成本模型往往带来更好的问题解决能力。
- 云端更安全,本地更灵活:云端部署适合追求安全稳定的用户;本地部署权限开放,能执行更复杂的系统级任务,但存在配置风险。
- 迭代仍在加速:尽管目前产品仍存在报错、不稳定等问题,但随着扣子版、QClaw V2等新版本的发布,国产AI Agent正快速进化,距离真正“替人打工”的目标仍有距离。
