关于将智能与判断分离的不可能性：AI 对齐中过滤任务的计算不可行性

2026/03/03 08:00阅读量 9

本文研究了大型语言模型（LLM）在防止生成有害内容时的对齐挑战，重点分析了输入提示和输出结果的过滤机制。研究证明，在密码学困难假设下，不存在能高效区分恶意提示与良性提示的过滤器，且输出过滤在特定场景下也是计算上不可行的。结论指出，仅靠外部过滤器无法实现安全，因为 AI 系统的智能与其判断能力无法分离。

Markdown 内容：作者 Sarah Ball†, Greg Gluch‡, Shafi Goldwasser‡, Frauke Kreuter†§, Omer Reingold¶, Guy N. Rothblum
随着大型语言模型（LLMs）部署的增加，人们担心其可能被滥用于生成有害内容。我们的工作研究了对齐挑战，重点关注防止生成不安全信息的过滤器。两个自然的干预点是：在提示到达模型之前过滤输入提示，以及在生成后过滤输出结果。我们的主要结果表明，对提示和输出进行过滤都存在计算挑战。
首先，我们证明了存在某些 LLMs，对于它们而言没有高效的提示过滤器：可以轻易构造出能够诱发有害行为的对抗性提示，这些提示对于任何高效过滤器来说都与良性提示在计算上不可区分。我们的第二个主要结果确定了一个自然场景，在该场景中输出过滤是计算上不可行的。我们所有的分离结果都是在密码学困难假设下得出的。
除了这些核心发现外，我们还形式化并研究了放松的缓解方法，进一步展示了计算障碍。我们得出结论：无法通过设计独立于 LLM 内部结构（架构和权重）的外部过滤器来实现安全；特别是，对 LLM 的黑盒访问是不够的。基于我们的技术结果，我们认为对齐后的 AI 系统的智能无法与其判断能力分离。

† 慕尼黑路德维希 - 马克西米利安大学 (MCML)
‡ 加州大学伯克利分校
§ 马里兰大学 JPSM
¶ 斯坦福大学
相关阅读和更新。

数据过滤已成为提高模型性能同时降低计算成本的有力工具。然而，随着大型语言模型的算力预算持续增长，由重度过滤和去重数据集提供的有限数据量将成为实际约束。为了更好地理解如何继续推进，我们研究了在不同算力预算下以及通过... 阅读更多创建的多个预训练数据集上的模型性能。
大规模训练集已成为机器学习的基石，是近期语言建模和多模态学习进步的 foundation。虽然预训练的数据整理通常仍是临时的，但一种常见的范式是首先从网络收集海量数据池，然后通过各种启发式方法将此候选池筛选为实际训练集。在这项工作中，我们研究了学习数据过滤的问题... 阅读更多

阅读原文详情

准备好启动您的定制项目了吗？