利用手语模型自举生成高质量手语标注数据

2026/04/30 08:00阅读量 2

针对手语解释系统因缺乏高质量标注数据而受限的问题，Apple ML Research 提出了一种伪标注流水线，结合稀疏预测与少样本大语言模型（K-Shot LLM）技术，从视频和英语输入中自动生成包含时间间隔的注释。该研究建立了新的手指拼写识别器和孤立手语识别器基线模型，在 FSBoard 和 ASL Citizen 数据集上均取得了最先进性能。为验证该方法，专业译员对近 500 个视频进行了人工标注作为金标准基准，相关的人工标注及超 300 小时的伪标注数据已公开。

事件概述

AI 驱动的手语解释面临高质量标注数据匮乏的挑战。尽管现有数据集（如 ASL STEM Wiki 和 FLEURS-ASL）包含专业译员录制的数百小时数据，但受限于高昂的标注成本，这些数据仅被部分标注且利用率不足。

核心方法与技术

本研究开发了一套伪标注流水线（pseudo-annotation pipeline），旨在解决上述问题：

输入输出：以手语视频和英语文本为输入，输出按可能性排序的标注集合，涵盖词义（glosses）、手指拼写单词（fingerspelled words）及手语分类器的时间区间。
技术架构：
- 利用稀疏预测结果，结合自主研发的手指拼写识别器（fingerspelling recognizer）和孤立手语识别器（ISR）。
- 引入 K-Shot LLM（少样本大语言模型）方法估算并优化标注内容。
基线模型突破：
- 建立了简单有效的基线模型，在 FSBoard 数据集上达到 6.7% CER（字符错误率）的最先进水平。
- 在 ASL Citizen 数据集上实现了 74% 的 Top-1 准确率。

验证与数据发布

为确保方法的可靠性，研究团队构建了金标准基准（gold-standard benchmark）：

人工验证：由专业手语译员对手语 STEM Wiki 中的近 500 个视频进行了序列级词义标注，包含词义、分类器动作及手指拼写符号。
数据开源：本次研究将上述人工标注数据以及通过流水线生成的超过 300 小时 的伪标注数据作为补充材料公开发布，供社区使用。

Colin Lea, Vasileios Baltatzis, Connor Gillis, Raja Kushalnagar (Gallaudet University), Lorna Quandt (Gallaudet University), Leah Findlater。

注：Raja Kushalnagar 和 Lorna Quandt 的工作期间隶属于 Apple。

阅读原文详情

事件概述

核心方法与技术

验证与数据发布

准备好启动您的定制项目了吗？