昆仑万维 SkyClaw-v1.0 实测：Agent 专攻模型的边界与性价比

2026/07/01 11:44阅读量 3

昆仑万维于5月26日发布专为 Agent 任务设计的模型 SkyClaw-v1.0，定价 0.5 元/百万输入 token。实测显示，它在从零生成小工具、模式化 bug 修复等舒适区表现惊艳，但在大型现有代码库精细修改、多文件协调等场景存在漏改、时间膨胀、延迟波动等问题。模型未报告 SWE-bench 成绩，能力分布高度依赖训练数据匹配度，并非通用全能助手。

事件概述

昆仑万维于 2026 年 5 月 26 日发布 SkyClaw-v1.0，定价 0.5 元/百万输入 token、4 元/百万输出，官方定位为“面向复杂工具使用、多轮工作流和真实世界任务执行的高性能 Agent 模型”，并明确建议将其嵌入 Agent 工作流，而非作为独立聊天模型使用。

关键发现

Agent 模型与对话模型本质不同：Agent 模型优化的是在环境中持续完成任务的能力，需要不同的训练数据（目标→工具调用→观察→修正的完整轨迹）、不同的强化学习目标（任务完成度而非回答质量）以及可交互的沙箱环境。头部厂商如 OpenAI（Codex-1）和 Anthropic（Claude Code 背后的模型）已在分化此类专项模型。
从零生成测试表现惊艳：作者用番茄钟和本地记账本两个单 HTML 文件任务测试，SkyClaw-v1.0 一次生成且速度很快。番茄钟自动合成了三音阶音效（Web Audio API）、用 CSS tabular-nums 防止数字跳动、日期变更自动重置完成数；记账本强制自行用 SVG 画饼图（正确处理 180° 边界 case）和带渐变面积填充的折线图，金额超 100 自动缩写，空状态显示友好提示并做 escapeHtml 防 XSS。这些细节均非 prompt 要求，说明模型在“从零生成”舒适区内表现接近顶尖模型。
SWE-bench 缺位揭示能力边界：官方未报告 SWE-bench（基于真实 GitHub 仓库 bug 修复的公认评测）成绩，而其声称“超越”或“接近”的模型（如 DeepSeek V4 Flash、MiniMax 2.7、Qwen 3.6、DeepSeek V4 Pro、Claude Opus 4.6）均报告该分数。推测 SkyClaw 可能不擅长在大型现有代码库中做精确修改。
现有代码库修改测试呈现“反直觉”曲线：作者用开源项目 zelda-hyrule-ui 进行三级测试：
- Level 1（简单：改默认值+同步文档）：漏改 SKILL.md 中不在特定章节的文档，且未还原 npm 自动重写的 package-lock.json。
- Level 2（中等：跨 6 个文件加回调 prop）：模型先读源码发现 prop 已存在故跳过组件修改（行为聪明，但未主动汇报），耗时 30 分钟，明显变慢。
- Level 3（最难：模糊症状定位，iOS 滚动卡顿）：模型给出教科书级诊断（-webkit-overflow-scrolling: touch 配合 scroll gesture chaining），仅加一行 CSS 修复，且解释清晰。
  结论：模型能力按“训练数据匹配度”分布，而非按任务难度。模式匹配类问题表现优秀，但工程纪律（主动搜索、主动反馈、清理副作用）及多文件协调能力较弱。
性价比真相：价格虽低，但 Agent 任务实际成本受多重因素影响：延迟波动（10 次同一 prompt 最快 2.1 秒、最慢 37.8 秒）、多文件协调任务时间膨胀、工具调用过度倾向（如问“1+1”也调用计算器）。适合场景：从零生成小工具、批量格式化任务、单点模式化修复；不适合场景：大型代码库精细修改、实时交互、需严格 git 卫生的工作流、通用全能助手。

值得关注

SkyClaw-v1.0 是 AI 模型分化的一个具体切片：不同模型擅长不同任务，而非一个模型解决所有问题。了解模型的定义、边界和局限性，比单纯追求“强大”更重要。当前没有任何模型能完美处理所有代码问题，SkyClaw 在自身舒适区内是合理选择，但用户需要明确其能力边界。

阅读原文详情

事件概述

关键发现

值得关注

准备好启动您的定制项目了吗？