Logits 泄露惊人：模型输出端可能包含与任务无关的图像信息

2026/04/20 08:00阅读量 2

Apple ML Research 最新研究揭示，通过探测大模型的 logits（输出层概率分布），可获取远超预期的敏感信息。在视觉 - 语言模型中，即使仅分析最终的高频 logits，也能泄露输入图像中与任务无关的细节，其信息量甚至接近直接投影整个残差流的结果。这一发现表明，模型输出端存在严重的非预期信息泄露风险，用户可能获取模型所有者认为不可访问的数据。

事件概述

Apple Machine Learning Research 团队于 2026 年 4 月发表题为《What Do Your Logits Know? (The Answer May Surprise You!)》的研究论文。该研究针对大型模型内部信息的可探测性进行了系统性分析，重点探讨了从模型内部表示到最终输出过程中，不同“表征层级”所保留的信息量差异。

核心发现

1. 研究背景与动机

近期研究表明，探测模型内部状态（probing model internals）能够揭示大量无法从模型生成结果中直接观察到的信息。这引发了对无意或恶意信息泄露的担忧：模型使用者可能获取到模型所有者假设已隔离的敏感数据。

2. 实验对象与方法

测试基准：视觉 - 语言模型（Vision-Language Models）。
对比层级：研究系统比较了信息在压缩过程中的保留情况，具体涉及两个关键瓶颈：
1. 低维投影：利用 Tuned Lens 技术获得的残差流（residual stream）的低维投影。
2. 最终 Logits：最可能影响模型回答的最终 top-k logits。

3. 关键结论

Logits 泄露严重：即使是易于访问的、由模型最高 logit 值定义的瓶颈，也会泄露输入图像查询中的任务无关信息（task-irrelevant information）。
信息量相当：在某些情况下，仅通过分析 top-k logits 所泄露的信息量，与直接投影完整残差流所获得的信息量相当。
风险性质：这意味着模型输出端并非安全的“黑盒”，攻击者或普通用户可通过分析简单的输出概率分布，推断出训练数据或输入内容中的隐藏细节。

值得关注

该研究强调了当前大模型在隐私保护方面的潜在漏洞。传统的观点可能认为只有深入模型内部（如中间层激活值）才能获取敏感信息，但本研究发现，仅需关注最终的 logits 即可实现同等程度的信息提取。这对模型部署安全、数据隐私合规以及对抗性攻击防御提出了新的挑战。

阅读原文详情