利用手语模型自举生成高质量手语标注数据

2026/04/30 08:00阅读量 2

针对手语解释系统因缺乏高质量标注数据而受限的问题,Apple ML Research 提出了一种伪标注流水线,结合稀疏预测与少样本大语言模型(K-Shot LLM)技术,从视频和英语输入中自动生成包含时间间隔的注释。该研究建立了新的手指拼写识别器和孤立手语识别器基线模型,在 FSBoard 和 ASL Citizen 数据集上均取得了最先进性能。为验证该方法,专业译员对近 500 个视频进行了人工标注作为金标准基准,相关的人工标注及超 300 小时的伪标注数据已公开。

事件概述

AI 驱动的手语解释面临高质量标注数据匮乏的挑战。尽管现有数据集(如 ASL STEM Wiki 和 FLEURS-ASL)包含专业译员录制的数百小时数据,但受限于高昂的标注成本,这些数据仅被部分标注且利用率不足。

核心方法与技术

本研究开发了一套伪标注流水线(pseudo-annotation pipeline),旨在解决上述问题:

  • 输入输出:以手语视频和英语文本为输入,输出按可能性排序的标注集合,涵盖词义(glosses)、手指拼写单词(fingerspelled words)及手语分类器的时间区间。
  • 技术架构
    • 利用稀疏预测结果,结合自主研发的手指拼写识别器(fingerspelling recognizer)和孤立手语识别器(ISR)。
    • 引入 K-Shot LLM(少样本大语言模型)方法估算并优化标注内容。
  • 基线模型突破
    • 建立了简单有效的基线模型,在 FSBoard 数据集上达到 6.7% CER(字符错误率)的最先进水平。
    • ASL Citizen 数据集上实现了 74% 的 Top-1 准确率。

验证与数据发布

为确保方法的可靠性,研究团队构建了金标准基准(gold-standard benchmark):

  • 人工验证:由专业手语译员对手语 STEM Wiki 中的近 500 个视频进行了序列级词义标注,包含词义、分类器动作及手指拼写符号。
  • 数据开源:本次研究将上述人工标注数据以及通过流水线生成的超过 300 小时 的伪标注数据作为补充材料公开发布,供社区使用。

Colin Lea, Vasileios Baltatzis, Connor Gillis, Raja Kushalnagar (Gallaudet University), Lorna Quandt (Gallaudet University), Leah Findlater。

注:Raja Kushalnagar 和 Lorna Quandt 的工作期间隶属于 Apple。

来源:Apple Machine Learning Research
返回列表

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。