关于将智能与判断分离的不可能性:AI 对齐中过滤任务的计算不可行性
本文研究了大型语言模型(LLM)在防止生成有害内容时的对齐挑战,重点分析了输入提示和输出结果的过滤机制。研究证明,在密码学困难假设下,不存在能高效区分恶意提示与良性提示的过滤器,且输出过滤在特定场景下也是计算上不可行的。结论指出,仅靠外部过滤器无法实现安全,因为 AI 系统的智能与其判断能力无法分离。
Markdown 内容:作者 Sarah Ball†, Greg Gluch‡, Shafi Goldwasser‡, Frauke Kreuter†§, Omer Reingold¶, Guy N. Rothblum 随着大型语言模型(LLMs)部署的增加,人们担心其可能被滥用于生成有害内容。我们的工作研究了对齐挑战,重点关注防止生成不安全信息的过滤器。两个自然的干预点是:在提示到达模型之前过滤输入提示,以及在生成后过滤输出结果。我们的主要结果表明,对提示和输出进行过滤都存在计算挑战。 首先,我们证明了存在某些 LLMs,对于它们而言没有高效的提示过滤器:可以轻易构造出能够诱发有害行为的对抗性提示,这些提示对于任何高效过滤器来说都与良性提示在计算上不可区分。我们的第二个主要结果确定了一个自然场景,在该场景中输出过滤是计算上不可行的。我们所有的分离结果都是在密码学困难假设下得出的。 除了这些核心发现外,我们还形式化并研究了放松的缓解方法,进一步展示了计算障碍。我们得出结论:无法通过设计独立于 LLM 内部结构(架构和权重)的外部过滤器来实现安全;特别是,对 LLM 的黑盒访问是不够的。基于我们的技术结果,我们认为对齐后的 AI 系统的智能无法与其判断能力分离。 * † 慕尼黑路德维希 - 马克西米利安大学 (MCML) * ‡ 加州大学伯克利分校 * § 马里兰大学 JPSM * ¶ 斯坦福大学 相关阅读和更新。 ----------------------------- 数据过滤已成为提高模型性能同时降低计算成本的有力工具。然而,随着大型语言模型的算力预算持续增长,由重度过滤和去重数据集提供的有限数据量将成为实际约束。为了更好地理解如何继续推进,我们研究了在不同算力预算下以及通过... [阅读更多](https://machinelearning.apple.com/research/datasets-documents-repetitions) 创建的多个预训练数据集上的模型性能。 大规模训练集已成为机器学习的基石,是近期语言建模和多模态学习进步的 foundation。虽然预训练的数据整理通常仍是临时的,但一种常见的范式是首先从网络收集海量数据池,然后通过各种启发式方法将此候选池筛选为实际训练集。在这项工作中,我们研究了学习数据过滤的问题... [阅读更多](https://machinelearning.apple.com/research/data-filtering-networks)
