Logits 泄露惊人:模型输出端可能包含与任务无关的图像信息

2026/04/20 08:00阅读量 2

Apple ML Research 最新研究揭示,通过探测大模型的 logits(输出层概率分布),可获取远超预期的敏感信息。在视觉 - 语言模型中,即使仅分析最终的高频 logits,也能泄露输入图像中与任务无关的细节,其信息量甚至接近直接投影整个残差流的结果。这一发现表明,模型输出端存在严重的非预期信息泄露风险,用户可能获取模型所有者认为不可访问的数据。

事件概述

Apple Machine Learning Research 团队于 2026 年 4 月发表题为《What Do Your Logits Know? (The Answer May Surprise You!)》的研究论文。该研究针对大型模型内部信息的可探测性进行了系统性分析,重点探讨了从模型内部表示到最终输出过程中,不同“表征层级”所保留的信息量差异。

核心发现

1. 研究背景与动机

近期研究表明,探测模型内部状态(probing model internals)能够揭示大量无法从模型生成结果中直接观察到的信息。这引发了对无意或恶意信息泄露的担忧:模型使用者可能获取到模型所有者假设已隔离的敏感数据。

2. 实验对象与方法

  • 测试基准:视觉 - 语言模型(Vision-Language Models)。
  • 对比层级:研究系统比较了信息在压缩过程中的保留情况,具体涉及两个关键瓶颈:
    1. 低维投影:利用 Tuned Lens 技术获得的残差流(residual stream)的低维投影。
    2. 最终 Logits:最可能影响模型回答的最终 top-k logits。

3. 关键结论

  • Logits 泄露严重:即使是易于访问的、由模型最高 logit 值定义的瓶颈,也会泄露输入图像查询中的任务无关信息(task-irrelevant information)。
  • 信息量相当:在某些情况下,仅通过分析 top-k logits 所泄露的信息量,与直接投影完整残差流所获得的信息量相当。
  • 风险性质:这意味着模型输出端并非安全的“黑盒”,攻击者或普通用户可通过分析简单的输出概率分布,推断出训练数据或输入内容中的隐藏细节。

值得关注

该研究强调了当前大模型在隐私保护方面的潜在漏洞。传统的观点可能认为只有深入模型内部(如中间层激活值)才能获取敏感信息,但本研究发现,仅需关注最终的 logits 即可实现同等程度的信息提取。这对模型部署安全、数据隐私合规以及对抗性攻击防御提出了新的挑战。

来源:Apple Machine Learning Research
返回列表

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。