文言文成AI安全“万能钥匙”:顶级模型越狱成功率近100%

ICLR 2026接收的论文揭示,利用文言文语义凝练、多义及隐喻特性构建的CC-BOS框架,能以极低成本绕过全球主流大模型的安全防御。测试显示,包括GPT-4o、Claude-3.7-Sonnet及DeepSeek在内的六款顶级模型在攻击下防线全溃,成功率达100%,平均仅需1-2次查询即可突破。这一发现暴露了现有安全对齐机制的深层漏洞,对即将普及的AI智能体系统构成严峻的安全威胁。

事件概述

近期发表于人工智能顶级会议ICLR 2026的一项研究指出,中国文言文正成为大语言模型(LLM)安全防御机制的“致命漏洞”。研究团队提出的CC-BOS(基于文言文语境的仿生搜索越狱)框架,成功实现了针对当前最先进模型的“越狱”,攻击成功率接近100%。

核心机制:为何文言文能攻破安全防线?

文言文之所以能绕过现代AI的安全过滤,主要归因于其三大语言特性,导致依赖关键词匹配和逻辑判断的安全机制失效:

  • 语义高度凝练:短篇幅包含庞大信息量,难以被常规规则解析。
  • 多义与歧义:同一词汇存在多种解读,非黑即白的判定规则难以适用。
  • 隐喻与修辞:大量使用借代、典故和象征,古代词汇可映射现代敏感概念,混淆检测器视听。

研究团队将大模型弱点拆解为八个维度(如角色认同、行为引导、隐喻映射等),组合出上万种策略。通过引入仿生果蝇算法(Fruit Fly Optimization)进行高效搜索:

  1. 嗅觉搜索(局部微调):随机生成提示词测试,一旦有效则微调词汇或语序。
  2. 视觉搜索(集群优化):发现有效策略后,引导算法向该方向集中迭代。
  3. 柯西突变(全局重置):若当前路径受阻,果断抛弃旧思路,尝试截然不同的策略以命中盲区。

实验结果:顶级模型全线溃败

研究选取了六款当时最先进的模型进行测试:GPT-4o、Claude-3.7-Sonnet、Gemini-2.5-Flash、Grok-3、DeepSeek-ReasonerQwen3。结果令人震惊:

  • 攻击成功率:所有模型在AdvBench有害行为基准测试中均被攻破,成功率达到100%。即便是中文能力较强的国产模型也未能幸免。
  • 攻击效率:传统自动化越狱通常需50-90次试探,而CC-BOS的平均查询次数仅为1.12-2.38次,意味着算力成本极低且隐蔽性极强。
  • 可迁移性:基于GPT-4o生成的攻击提示词,在未参与测试的其他模型上依然保持**80%-96%**的高成功率,证明这是大模型的通用底层漏洞。

行业影响与警示

随着AI智能体(Agent)逐步接管操作系统权限,文言文越狱带来的风险已从理论层面转向现实威胁:

  • 权限失控风险:攻击者无需编写复杂木马,仅通过网页、邮件或PDF中的构造指令,即可诱导拥有系统级权限的智能体泄露隐私或执行危险操作。
  • 安全机制局限:现有安全对齐机制仍停留在浅层过滤阶段,无法应对基于文化语境的高级对抗。
  • 未来挑战:文言文仅是已知的一个安全盲区,复杂的神经网络黑盒中可能还隐藏着无数未发现的漏洞。在数字生活全面由智能体托管之前,设计更鲁棒的安全机制已成为行业必须面对的生死大考。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。