Mercor 4TB 语音数据泄露:合同工面临身份盗用风险
2026/04/28 18:28阅读量 4
美国 AI 初创公司 Mercor 遭勒索组织 Lapsus$ 攻击,导致 4TB 语音样本及身份证件信息被盗。泄露数据包含长达 2-5 分钟的录音,足以支持高保真语音克隆技术,引发至少五名合同工提起集体诉讼。事件暴露了企业在收集生物识别特征时未明确告知永久存储风险的合规问题。
事件概述
美国 AI 初创公司 Mercor 遭遇严重数据泄露,勒索组织 Lapsus$ 于本月初披露窃取了该公司约 4TB 的语音样本数据。该数据不仅包含语音记录,还涉及员工的护照或驾照扫描件等敏感身份信息。
核心事实
- 泄露规模与内容:被盗数据总量达 4TB,主要为由合同工提供的用于模型训练的语音样本及身份证明文件。
- 数据来源背景:Mercor 业务是为其他 AI 公司提供专家协助以训练模型和聊天机器人。招聘过程中,要求合同工提供证件扫描件、自拍以及录制 2-5 分钟的语音。
- 技术风险分析:现有语音克隆技术仅需 15 秒清晰音频即可实现高度逼真的合成。Mercor 收集的 2-5 分钟录音远超此阈值,存在极高的被用于伪造身份的风险。
- 法律后果:已有至少五名合同工对 Mercor 提起诉讼。原告指控公司以“训练数据”为名收集语音特征,却未明确说明这些数据作为永久性生物识别标识符的用途及存储方式。
值得关注
此次事件凸显了 AI 行业在采集生物识别数据时的潜在隐患。当企业收集远超技术必要时长(如数分钟)的语音数据时,若缺乏透明的知情同意机制,极易引发严重的隐私侵犯和身份盗用危机。
