昆仑万维 SkyClaw-v1.0 实测:Agent 专攻模型的边界与性价比
2026/07/01 11:44阅读量 3
昆仑万维于5月26日发布专为 Agent 任务设计的模型 SkyClaw-v1.0,定价 0.5 元/百万输入 token。实测显示,它在从零生成小工具、模式化 bug 修复等舒适区表现惊艳,但在大型现有代码库精细修改、多文件协调等场景存在漏改、时间膨胀、延迟波动等问题。模型未报告 SWE-bench 成绩,能力分布高度依赖训练数据匹配度,并非通用全能助手。
事件概述
昆仑万维于 2026 年 5 月 26 日发布 SkyClaw-v1.0,定价 0.5 元/百万输入 token、4 元/百万输出,官方定位为“面向复杂工具使用、多轮工作流和真实世界任务执行的高性能 Agent 模型”,并明确建议将其嵌入 Agent 工作流,而非作为独立聊天模型使用。
关键发现
- Agent 模型与对话模型本质不同:Agent 模型优化的是在环境中持续完成任务的能力,需要不同的训练数据(目标→工具调用→观察→修正的完整轨迹)、不同的强化学习目标(任务完成度而非回答质量)以及可交互的沙箱环境。头部厂商如 OpenAI(Codex-1)和 Anthropic(Claude Code 背后的模型)已在分化此类专项模型。
- 从零生成测试表现惊艳:作者用番茄钟和本地记账本两个单 HTML 文件任务测试,SkyClaw-v1.0 一次生成且速度很快。番茄钟自动合成了三音阶音效(Web Audio API)、用 CSS tabular-nums 防止数字跳动、日期变更自动重置完成数;记账本强制自行用 SVG 画饼图(正确处理 180° 边界 case)和带渐变面积填充的折线图,金额超 100 自动缩写,空状态显示友好提示并做 escapeHtml 防 XSS。这些细节均非 prompt 要求,说明模型在“从零生成”舒适区内表现接近顶尖模型。
- SWE-bench 缺位揭示能力边界:官方未报告 SWE-bench(基于真实 GitHub 仓库 bug 修复的公认评测)成绩,而其声称“超越”或“接近”的模型(如 DeepSeek V4 Flash、MiniMax 2.7、Qwen 3.6、DeepSeek V4 Pro、Claude Opus 4.6)均报告该分数。推测 SkyClaw 可能不擅长在大型现有代码库中做精确修改。
- 现有代码库修改测试呈现“反直觉”曲线:作者用开源项目 zelda-hyrule-ui 进行三级测试:
- Level 1(简单:改默认值+同步文档):漏改 SKILL.md 中不在特定章节的文档,且未还原 npm 自动重写的 package-lock.json。
- Level 2(中等:跨 6 个文件加回调 prop):模型先读源码发现 prop 已存在故跳过组件修改(行为聪明,但未主动汇报),耗时 30 分钟,明显变慢。
- Level 3(最难:模糊症状定位,iOS 滚动卡顿):模型给出教科书级诊断(-webkit-overflow-scrolling: touch 配合 scroll gesture chaining),仅加一行 CSS 修复,且解释清晰。
结论:模型能力按“训练数据匹配度”分布,而非按任务难度。模式匹配类问题表现优秀,但工程纪律(主动搜索、主动反馈、清理副作用)及多文件协调能力较弱。
- 性价比真相:价格虽低,但 Agent 任务实际成本受多重因素影响:延迟波动(10 次同一 prompt 最快 2.1 秒、最慢 37.8 秒)、多文件协调任务时间膨胀、工具调用过度倾向(如问“1+1”也调用计算器)。适合场景:从零生成小工具、批量格式化任务、单点模式化修复;不适合场景:大型代码库精细修改、实时交互、需严格 git 卫生的工作流、通用全能助手。
值得关注
SkyClaw-v1.0 是 AI 模型分化的一个具体切片:不同模型擅长不同任务,而非一个模型解决所有问题。了解模型的定义、边界和局限性,比单纯追求“强大”更重要。当前没有任何模型能完美处理所有代码问题,SkyClaw 在自身舒适区内是合理选择,但用户需要明确其能力边界。
