GitHub 团队构建通用可访问性代理的经验与教训

2026/05/16 00:00阅读量 2

GitHub 可访问性团队开发了一款结合 LLM、计算机视觉和浏览器自动化的通用可访问性代理,能够自动发现并分类网页可访问性问题,生成开发者可直接使用的报告。团队分享了在多模态模型融合、提示工程、任务分解以及人机协作方面的关键经验,并计划将该工具开源。

事件概述

GitHub 可访问性团队旨在解决传统可访问性测试耗时、覆盖率低的问题,构建了一款通用可访问性代理(Accessibility Agent)。该代理利用大型语言模型(LLM)的推理能力结合浏览器交互能力,实现自动化可访问性审计,并能提供可操作的修复建议。

核心方法

  • 代理采用多模态模型(评估了 Claude Vision、GPT-4V 和 Gemini),结合计算机视觉与自然语言处理技术。
  • 内置“可访问性策略库”,覆盖 WCAG 标准及常见缺陷模式。
  • 能够无头浏览网页,与 DOM 元素交互(点击、滚动等),记录截图与问题路径。
  • 最终输出结构化的可访问性报告,包含问题分类、截图证据及修复建议。

关键经验(What We Learned)

  • 多模态模型至关重要:仅靠 HTML 源码无法识别视觉对比度、焦点顺序等问题,多模态视觉输入是必要补充。
  • 提示工程是瓶颈:需要精细设计系统提示和任务分解,才能稳定触发模型对 WCAG 规则的正确判断。
  • 任务分解提升可靠性:将一次扫描拆分为多个子任务(如逐区域审计、逐规则验证),避免模型“幻觉”。
  • 人机协作不可替代:代理作为辅助工具,但最终审核和复杂场景仍需要人工参与。

未来计划

GitHub 团队计划将该代理工具开源,以便社区共同改进和扩展,进一步降低可访问性测试的门槛。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。