苹果新论文揭示：大模型Logits可能泄露用户隐私细节

2026/04/27 08:17阅读量 12

苹果最新研究《What do your logits know?》发现，即使在大模型完成简单问答任务后，其输出的顶层概率分布（Logits）仍包含大量未提及的图像属性与背景信息。实验表明，仅需提取前60个左右的候选词得分，即可近乎完美地还原图片中的噪声类型、物体材质及背景细节，其泄密能力等同于深层参数访问。这一发现打破了灰盒API的安全幻想，揭示了生成式AI在隐私保护方面的重大隐患。

事件概述

苹果AI研究团队提交了一篇题为《What do your logits know? (The answer may surprise you!)》的论文，深入探讨了视觉-语言模型（VLM）在处理信息时的底层机制。研究挑战了传统的“信息瓶颈原则”，即模型应在输出阶段过滤掉所有无关信息。实验证明，模型在回答简单问题时，其内部状态和最终输出的概率分布中仍残留了大量敏感数据。

核心实验发现

研究人员利用“探针”（Probes）工具，在CLEVR和MSCOCO数据集上对模型进行了测试，得出以下七大关键结论：

残差流保留全量信息：模型处理过程中的隐藏层（Residual Stream）几乎原封不动地保留了输入图像的所有细节，包括噪声类型、目标物体属性及完全无关的背景特征，探针可从中以接近完美的准确率提取信息。
Logits编码冗余属性：即使在最终输出层，信息压缩也不彻底。仅观察排名前0.5L的候选词，即可预测提示词中未提及的物体材质和尺寸；增加至前2L候选词时，背景物体的数量和颜色等环境信息也会被泄露。
U型曲线泄密规律：提取能力的强弱与候选词数量呈U型曲线关系。当截取前30至80个Logits（约等于模型深度的1L或2L）时，预测准确率最高；若继续扩大范围，高维噪声反而会降低提取效果。
灰盒API风险等同白盒：通过API开放的Top-k Logits（通常只需前2L），其泄露无关信息的能力与需要极高权限的白盒深层参数访问相当。这打破了业界认为灰盒接口天然安全的传统认知。
模型性能关联：这种信息压缩失败可能导致模型产生幻觉。例如，Qwen3-VL模型在面对高斯噪声干扰时，比LLAMA模型更容易出现误判，说明残留的无关信息会干扰决策过程。

安全隐忧与技术影响

隐私泄露机制：在实际应用中，服务提供商常公开模型的Top-k概率分布供开发者调整参数。恶意攻击者可通过反复探测这些看似无害的概率得分，还原用户上传照片中的背景隐私或敏感属性。
行业启示：该研究指出，当前的生成式AI架构在隐私保护上存在显著漏洞。构建下一代AI平台时，必须解决智能性与隐私安全之间的平衡问题，防止底层概率分布成为新的数据泄露源头。

论文地址：https://arxiv.org/abs/2604.09885

阅读原文详情

事件概述

核心实验发现

安全隐忧与技术影响

准备好启动您的定制项目了吗？