GitHub 团队构建通用可访问性代理的经验与教训
2026/05/16 00:00阅读量 2
GitHub 可访问性团队开发了一款结合 LLM、计算机视觉和浏览器自动化的通用可访问性代理,能够自动发现并分类网页可访问性问题,生成开发者可直接使用的报告。团队分享了在多模态模型融合、提示工程、任务分解以及人机协作方面的关键经验,并计划将该工具开源。
事件概述
GitHub 可访问性团队旨在解决传统可访问性测试耗时、覆盖率低的问题,构建了一款通用可访问性代理(Accessibility Agent)。该代理利用大型语言模型(LLM)的推理能力结合浏览器交互能力,实现自动化可访问性审计,并能提供可操作的修复建议。
核心方法
- 代理采用多模态模型(评估了 Claude Vision、GPT-4V 和 Gemini),结合计算机视觉与自然语言处理技术。
- 内置“可访问性策略库”,覆盖 WCAG 标准及常见缺陷模式。
- 能够无头浏览网页,与 DOM 元素交互(点击、滚动等),记录截图与问题路径。
- 最终输出结构化的可访问性报告,包含问题分类、截图证据及修复建议。
关键经验(What We Learned)
- 多模态模型至关重要:仅靠 HTML 源码无法识别视觉对比度、焦点顺序等问题,多模态视觉输入是必要补充。
- 提示工程是瓶颈:需要精细设计系统提示和任务分解,才能稳定触发模型对 WCAG 规则的正确判断。
- 任务分解提升可靠性:将一次扫描拆分为多个子任务(如逐区域审计、逐规则验证),避免模型“幻觉”。
- 人机协作不可替代:代理作为辅助工具,但最终审核和复杂场景仍需要人工参与。
未来计划
GitHub 团队计划将该代理工具开源,以便社区共同改进和扩展,进一步降低可访问性测试的门槛。
