OpenAI 用 Codex 构建能自我改进的税务代理系统
2026/05/27 15:00阅读量 2
OpenAI 与 Thrive Holdings 合作,基于 Codex 为会计师事务所 Crete 构建 Tax AI 税务代理系统。该系统在 2026 年税季处理了 7000 份报税,能节省约三分之一的时间,准确率达 97%,吞吐量提升 50%。通过专家纠错、生产轨迹和 Codex 驱动的迭代循环,系统实现了持续自我改进,六周内 75% 字段完成率从 25% 升至 86%。
事件概述
OpenAI 与 Thrive Holdings 合作,基于 Codex 为会计师事务所 Crete 构建了 Tax AI 系统,用于自动处理 1040 和 1041 税务申报。该系统在 2026 年税季处理了 7000 份报税,覆盖 Crete 旗下 30 多家会计事务所。Tax AI 能自动从上传的源文件和客户备注中生成税务引擎提交稿,供会计师审阅。
核心能力与效果
- 效率增益:为会计师节省约三分之一的准备时间,吞吐量提升约 50%。
- 准确率:系统草案的字段准确率高达 97%。
- 自我改进量化:以字段完成率衡量系统质量。启动时仅四分之一的报税达到 75% 字段完成,六周后该比例升至 86%;在 90% 和 100% 完成率上增长更快。
- 处理复杂度升级:初期处理简单 W-2、1099 表格,后期扩展到包含 K-1、租金 Schedule E 等复杂场景。
自我改进方法:三支柱循环
Tax AI 的自我改进基于三个关键支柱:
- 专家从业者反馈:会计师的纠错行为被系统记录为结构化数据,用于识别哪些错误真正影响提交质量。
- 生产轨迹:系统不仅记录输入和输出,还捕获从源文件到提取字段、再到税务引擎提交和专家修正的完整路径,使失败原因可追溯。
- Codex 驱动的迭代循环:生产问题被转化为评估目标,Codex 负责调查、提出修改、通过针对性评估和回归测试验证,加速产品改进。
典型案例:租赁房产(Schedule E)
租赁房产收入提取是典型复杂场景:源文件可能包含手写笔记、邮件、电子表格。系统需要提取并标注来源,再由会计师确认或修正。
- 纠错捕获:会计师的一次字段修正(如“公平租赁天数”)揭示系统提取遗漏。
- 转化为评估:系统将该修正与已提交报税对比,生成字段级差异记录;类似失败被归组(如系统常遗漏公平租赁天数或混淆多套房产)。
- Codex 改进:重复模式成为针对性评估集,Codex 据此设计改进方案,并通过回归测试验证。
扩展性
该循环可推广到其他领域。关键是要有从业者直接参与、生产轨迹结构化,以及 Codex 能自动将评估目标转化为工程任务。
