EMBridge:通过跨模态表示学习增强从肌电信号中实现手势泛化

本文提出了EMBridge,这是一种跨模态表示学习框架,旨在弥合肌电信号(EMG)与姿态数据之间的模态差距。该方法通过引入查询Transformer、掩码姿态重建损失以及社区感知的软对比学习目标,显著提升了EMG表示的质量。实验表明,EMBridge在分布内和未见手势分类任务上均优于所有基线模型,首次实现了基于可穿戴EMG信号的零样本手势分类。

Markdown内容: 利用高质量结构化数据(如视频、图像和手部骨架)进行手部手势分类是计算机视觉领域中一个已被充分探索的问题。另一方面,利用低功耗、具有成本效益的生物信号(例如表面肌电图 sEMG),可以在可穿戴设备上实现连续的手势预测。在这项工作中,我们的目标是通过将 EMG 与从提供丰富语义指导的高质量结构化模态中获得的嵌入(embeddings)对齐,来增强 EMG 表示的质量,最终实现零样本手势泛化。 具体而言,我们提出了 EMBridge,这是一个跨模态表示学习框架,用于桥接 EMG 与姿态(pose)之间的模态差距。EMBridge 通过引入查询 Transformer(Q-Former)、掩码姿态重建损失(masked pose reconstruction loss)以及一种使嵌入空间相对几何结构对齐的社区感知软对比学习目标(community-aware soft contrastive learning objective),来学习高质量的 EMG 表示。 我们在分布内(in-distribution)和未见(unseen)手势分类任务上评估了 EMBridge,并证明其性能在所有基线模型上均有持续提升。据我们所知,EMBridge 是首个实现基于可穿戴 EMG 信号进行零样本手势分类的跨模态表示学习框架,展示了其在可穿戴设备上实现现实世界手势识别的潜力。 * † 南加州大学 * ** 在苹果公司工作期间完成的研究 相关阅读与更新。 ----------------------------- 本文已被 NeurIPS 2025 的“大脑与身体的基础模型”研讨会(Foundation Models for the Brain and Body Workshop)录用。 利用高质量结构化数据(如视频、图像和手部骨架)进行手部手势分类是计算机视觉领域中一个已被充分探索的问题。利用低功耗、具有成本效益的生物信号(例如表面肌电图 sEMG),可以在可穿戴设备上实现连续的手势预测。在本文中,我们证明了学习……[阅读更多](https://machinelearning.apple.com/research/cpep-contrastive) 手势识别正成为一种日益普遍的人机交互模式,尤其是随着摄像头在日常设备中的普及。尽管该领域取得了持续进展,但手势定制往往未被充分探索。定制至关重要,因为它使用户能够定义和演示更自然、更易记忆且更具可访问性的手势。然而,定制需要高效地利用用户提供的数据。我们……[阅读更多](https://machinelearning.apple.com/research/vision-based-hand)

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。