利用大模型进行大规模去匿名化

基于海量数据训练的大语言模型显著降低了网络“开盒”(去匿名化)的成本与门槛。研究人员提出了一种新攻击流程,通过提取特征、搜索候选匹配及推理验证,能以高精度关联匿名用户与实名身份。实验显示,该方法在保持99%精度的同时,将回索率从0.1%大幅提升至45.1%,表明传统匿名保护手段已失效。

根据海量数据训练并能快速检索相关信息的大模型大幅降低了网络开盒(或叫去匿名化)的成本。一个人可仅仅通过少数特征被个别界定,比如仅通过邮政编码、出生日期和性别,87% 的美国人口即可被个别界定。根据发表在预印本平台 arXiv 的一篇论文,大模型能用于大规模的去匿名化,能高精度的识别网络上的匿名用户。研究人员设计了一个攻击流程:提取身份特征,搜索候选匹配,通过推理验证匹配结果减少误判。传统的去匿名工作需要专业调查人员花费数小时或更长时间,大模型不仅花费时间更少,而且可以大幅扩大规模。利用大模型,以关联 Hacker News 匿名账号和 LinkedIn 实名账号为例,系统能在维持 99% 精度的情况下,将回索率从 0.1% 大幅提升至 45.1%。回索率(Recall)被用于衡量模型找回所有相关信息的能力。研究人员指出,保护网民匿名性的旧方法不再有效。 https://arxiv.org/abs/2602.16800

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。