苹果新论文揭示:大模型Logits可能泄露用户隐私细节

2026/04/27 08:17阅读量 12

苹果最新研究《What do your logits know?》发现,即使在大模型完成简单问答任务后,其输出的顶层概率分布(Logits)仍包含大量未提及的图像属性与背景信息。实验表明,仅需提取前60个左右的候选词得分,即可近乎完美地还原图片中的噪声类型、物体材质及背景细节,其泄密能力等同于深层参数访问。这一发现打破了灰盒API的安全幻想,揭示了生成式AI在隐私保护方面的重大隐患。

事件概述

苹果AI研究团队提交了一篇题为《What do your logits know? (The answer may surprise you!)》的论文,深入探讨了视觉-语言模型(VLM)在处理信息时的底层机制。研究挑战了传统的“信息瓶颈原则”,即模型应在输出阶段过滤掉所有无关信息。实验证明,模型在回答简单问题时,其内部状态和最终输出的概率分布中仍残留了大量敏感数据。

核心实验发现

研究人员利用“探针”(Probes)工具,在CLEVR和MSCOCO数据集上对模型进行了测试,得出以下七大关键结论:

  1. 残差流保留全量信息:模型处理过程中的隐藏层(Residual Stream)几乎原封不动地保留了输入图像的所有细节,包括噪声类型、目标物体属性及完全无关的背景特征,探针可从中以接近完美的准确率提取信息。
  2. Logits编码冗余属性:即使在最终输出层,信息压缩也不彻底。仅观察排名前0.5L的候选词,即可预测提示词中未提及的物体材质和尺寸;增加至前2L候选词时,背景物体的数量和颜色等环境信息也会被泄露。
  3. U型曲线泄密规律:提取能力的强弱与候选词数量呈U型曲线关系。当截取前30至80个Logits(约等于模型深度的1L或2L)时,预测准确率最高;若继续扩大范围,高维噪声反而会降低提取效果。
  4. 灰盒API风险等同白盒:通过API开放的Top-k Logits(通常只需前2L),其泄露无关信息的能力与需要极高权限的白盒深层参数访问相当。这打破了业界认为灰盒接口天然安全的传统认知。
  5. 模型性能关联:这种信息压缩失败可能导致模型产生幻觉。例如,Qwen3-VL模型在面对高斯噪声干扰时,比LLAMA模型更容易出现误判,说明残留的无关信息会干扰决策过程。

安全隐忧与技术影响

  • 隐私泄露机制:在实际应用中,服务提供商常公开模型的Top-k概率分布供开发者调整参数。恶意攻击者可通过反复探测这些看似无害的概率得分,还原用户上传照片中的背景隐私或敏感属性。
  • 行业启示:该研究指出,当前的生成式AI架构在隐私保护上存在显著漏洞。构建下一代AI平台时,必须解决智能性与隐私安全之间的平衡问题,防止底层概率分布成为新的数据泄露源头。

论文地址:https://arxiv.org/abs/2604.09885

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。