OpenSquilla 0.4.0 发布:AI 写代码引入“自我验证”机制,从“声称改对”到“自证改对”
开源 AI Agent 项目 OpenSquilla 发布 0.4.0 版本,核心是编码工作流 coding 模式及其内置的自我验证机制。AI 在交付代码前须通过“红(失败测试)→绿(修复通过)→回归(不破坏原有)”三关,并附上可复核的证据链。该版本通过智能路由等机制将内测综合成本降低 60-80%,并在演示中实现对 Karpathy 的 micrograd 库的梯度计算精度与 PyTorch 小数点后 10 位完全一致。
事件概述
OpenSquilla 发布 0.4.0 版本,正式推出编码工作流(coding 模式),最关键的更新是让 AI 写代码能够“自我验证”。这意味着 AI 不再只是口头告知“改好了”,而是在交回结果前,先通过自动化测试产出一份可复核的“改对了”的证据,从而解决 AI 编码在生产环境中的信任瓶颈。
核心机制:红绿回归证据链
- 红:先编写一个注定失败的测试用例,证明该测试能抓住目标 bug。
- 绿:完成功能开发,使测试由红转绿。
- 回归:运行项目原有全部测试,确保没有引入新问题。
三关全部通过才算交付,任一不过则自动打回。同时内置自动修复闭环——未通过时 AI 自动重试修改,直至通过。所有改动在隔离副本中进行,验收合格后才会落回源码。
案例展示
在官方演示中,coding 模式为 AI 教育圈知名项目 micrograd(Andrej Karpathy 的极简自动微分库)新增“计算正确梯度”功能。梯度错误不会报错崩溃,但会导致模型训练偏差,属于最难肉眼发现的 bug。演示分两步:AI 先走完红→绿→回归三关并自交证据,再将新功能与行业标准工具 PyTorch 并排比对。前向值与每一个梯度的结果小数点后 10 位完全一致,证明其准确性。
成本优化
OpenSquilla 通过本地智能路由,按任务复杂度自动选择模型、技能按需加载、记忆按需检索、工具结果预处理等方式,在调用前就压降成本。官方数据显示,其智能路由相比通用网关 OpenRouter 路由精度高约 4.4 个百分点,成本低约 75%;与旗舰模型跑同类任务质量基本持平,成本相差约 9 倍。官网称常规场景内测综合成本可下降 60-80%。
公司背景
OpenSquilla 由基元律动公司开发,创始人王云鹤曾负责头部科技公司大模型研发,CTO 为韩凯。项目上线数周内 GitHub star 达数千量级,公司成立仅数月即完成首轮融资,是 Harness 和 Agent 原生模型方向上的代表性项目之一。
