OpenSquilla 0.4.0 发布：AI 写代码引入“自我验证”机制，从“声称改对”到“自证改对”

2026/07/01 15:32阅读量 2

开源 AI Agent 项目 OpenSquilla 发布 0.4.0 版本，核心是编码工作流 coding 模式及其内置的自我验证机制。AI 在交付代码前须通过“红（失败测试）→绿（修复通过）→回归（不破坏原有）”三关，并附上可复核的证据链。该版本通过智能路由等机制将内测综合成本降低 60-80%，并在演示中实现对 Karpathy 的 micrograd 库的梯度计算精度与 PyTorch 小数点后 10 位完全一致。

事件概述

OpenSquilla 发布 0.4.0 版本，正式推出编码工作流（coding 模式），最关键的更新是让 AI 写代码能够“自我验证”。这意味着 AI 不再只是口头告知“改好了”，而是在交回结果前，先通过自动化测试产出一份可复核的“改对了”的证据，从而解决 AI 编码在生产环境中的信任瓶颈。

核心机制：红绿回归证据链

红：先编写一个注定失败的测试用例，证明该测试能抓住目标 bug。
绿：完成功能开发，使测试由红转绿。
回归：运行项目原有全部测试，确保没有引入新问题。
三关全部通过才算交付，任一不过则自动打回。同时内置自动修复闭环——未通过时 AI 自动重试修改，直至通过。所有改动在隔离副本中进行，验收合格后才会落回源码。

案例展示

在官方演示中，coding 模式为 AI 教育圈知名项目 micrograd（Andrej Karpathy 的极简自动微分库）新增“计算正确梯度”功能。梯度错误不会报错崩溃，但会导致模型训练偏差，属于最难肉眼发现的 bug。演示分两步：AI 先走完红→绿→回归三关并自交证据，再将新功能与行业标准工具 PyTorch 并排比对。前向值与每一个梯度的结果小数点后 10 位完全一致，证明其准确性。

成本优化

OpenSquilla 通过本地智能路由，按任务复杂度自动选择模型、技能按需加载、记忆按需检索、工具结果预处理等方式，在调用前就压降成本。官方数据显示，其智能路由相比通用网关 OpenRouter 路由精度高约 4.4 个百分点，成本低约 75%；与旗舰模型跑同类任务质量基本持平，成本相差约 9 倍。官网称常规场景内测综合成本可下降 60-80%。

公司背景

OpenSquilla 由基元律动公司开发，创始人王云鹤曾负责头部科技公司大模型研发，CTO 为韩凯。项目上线数周内 GitHub star 达数千量级，公司成立仅数月即完成首轮融资，是 Harness 和 Agent 原生模型方向上的代表性项目之一。

阅读原文详情

事件概述

核心机制：红绿回归证据链

案例展示

成本优化

公司背景

准备好启动您的定制项目了吗？