BrowserBC:人类的一次浏览操作,如何变成所有Agent都能复用的技能

2026/06/27 20:29阅读量 2

BrowserBC通过录制人类浏览器操作并转写成自然语言技能(Skill),让小模型能够复用人类经验完成任务。在WebArena-Hard和真实网站基准ClawBench上,注入技能后成功率分别提升20.9和35.5个百分点。该方法实现了“蒸馏一次、便宜复用”,为Web Agent从“能操作”走向“高效操作”提供了经验结构。

事件概述

Einsia AI旗下Navers Lab发布开源项目BrowserBC,提供一种将人类浏览器操作轨迹蒸馏成可复用自然语言技能(Skill)的方法。核心流程为:录制→转写成Skill→交付执行。该方案旨在解决Web Agent面对新网站需从零摸索、成本高且易出错的问题。

核心方法

  • 录制:在浏览器中完成任务时,完整记录任务指令、每一步的页面状态(渲染截图+结构化DOM/可访问性树)、用户动作(点击、输入、跳转等)、页面反馈及最终结果。
  • 转写:模型将轨迹清洗后,按语义切割成子过程,提取证据并转写成结构化的自然语言技能卡。技能卡只保留可迁移的过程性知识(如“该做什么、怎么判断进展、怎么算完成”),剥离精确坐标、DOM选择器、登录态、隐私文本等易变细节。
  • 执行:将技能卡交给任意模型(可为更小、更便宜的模型)作为上下文,模型据此在真实页面上自行落地操作,而非机械复刻坐标。

技能组织方面:多条轨迹生成的技能通过技能图(skill graph)管理,按意图、前置条件、步骤等判断是否新增、合并或特化,支持增量精炼和局部检索。检索时按语义相似度挑出相关技能,塞入Agent上下文,但Agent仍以当前页面状态为准自主决策。

实验结果

  • WebArena-Hard(258个人类审核任务):base agent成功率为60.5%(156/258),注入技能后提升至81.4%(210/258),提升20.9个百分点,挽回基线失败任务中的54个。平均工具调用次数从31.2降至22.7(-27.3%)。
  • ClawBench(152个真实线上网站任务,页面布局会变化):skill-free基线成功率为32.9%(50/152),注入技能后提升至68.4%(104/152),提升35.5个百分点,几乎翻倍。
  • 跨模型迁移:用强模型(Sonnet-4.6)蒸馏的技能同时大幅提升两个不同执行器(+24与+20个百分点),而弱模型蒸馏的技能增益微弱。装配强模型技能的小Agent(77%)逼近大Agent(80%),验证了“蒸馏一次、便宜复用”。
  • 迁移到桌面OS:在30个OSWorld风格Ubuntu桌面任务上,17个在注入匹配技能后得到改善,说明过程性先验可跨浏览器边界迁移。

关键讨论

  • 技能是带置信度的先验,不是命令:强制Agent逐字照搬技能成功率仅77.5%,允许选择性使用并优先页面证据时达81.4%。约3.9%的任务中盲目照搬技能反而出错。
  • 剩余难度在执行精度:失败案例大多源于长表单漏字段、目标歧义、长程任务耗预算等执行精度问题,而非知识缺失。技能能补“该怎么做”,补不了“手稳不稳”。
  • 迁移到浏览器之外:可迁移的是过程性先验(前置条件、语义状态转移、里程碑、终止证据等),而浏览器专属动作序列不适用。当缺流程结构时技能最有用,缺底层GUI grounding或检索错配时反而添乱。

意义

BrowserBC的核心价值在于将人类在浏览器中的高效操作路径蒸馏为Agent可复用的Skill,为Web Agent提供了可积累、可复用、可迁移的经验结构。它不依赖网站方提供MCP或官方接口,只要人能用的网站,就能通过蒸馏让Agent高效使用,这为“通用网页浏览”提供了一条现实路径。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。