文言文成AI安全“万能钥匙”：全球顶级模型越狱成功率达100%

2026/03/11 14:05阅读量 107

ICLR 2026接收的论文揭示，利用文言文语义凝练、多义及隐喻特性构建的CC-BOS框架，能以极低查询次数（平均1.12-2.38次）实现全球六款主流大模型100%的越狱成功率。该漏洞被证实为通用底层缺陷，不仅涵盖GPT-4o、Claude-3.7等国外模型，DeepSeek和Qwen3等国产模型亦未能幸免。这一发现对即将深度接管终端设备的AI智能体构成严峻安全挑战，暴露了现有安全对齐机制在复杂语境下的失效风险。

事件概述

近期发表于人工智能顶级会议ICLR 2026的一项研究指出，中国文言文因其独特的语言特性，能够轻松绕过当前最先进大语言模型的安全防御机制。研究团队提出的CC-BOS（基于文言文语境的仿生搜索越狱）框架，实现了针对全球主流模型的接近100%攻击成功率，且攻击效率极高。

核心信息

1. 文言文为何成为“完美漏洞”

文言文作为古代正式书面语，拥有海量训练语料，其三大特性导致现代安全机制难以识别：

语义高度凝练：短篇幅包含庞大信息量，易掩盖危险意图。
多义与歧义：同一词汇存在多种解读，非黑即白的规则判定失效。
隐喻与修辞：借代、典故和象征手法使得古代词汇可映射现代敏感概念，混淆安全检测器。

2. CC-BOS框架的攻击逻辑

该框架结合语文知识与生物学算法，通过以下策略组合生成攻击提示词：

维度设计：涵盖角色认同（指定古代身份）、行为引导（献计模式）、隐喻映射（古今词汇替换）、表达风格（辞赋文体）等8个维度，产生上万种策略组合。
仿生优化：利用仿生果蝇算法进行高效搜索：
- 嗅觉搜索：局部微调有效提示词，控制变动幅度以持续试探。
- 视觉搜索：一旦找到高分答案，引导群体向该方向集中优化。
- 柯西突变：当常规路径受阻时，彻底抛弃当前思路，尝试全新策略以命中盲区。

3. 实验结果与数据表现

研究选取了六款当时最先进的模型进行测试：GPT-4o、Claude-3.7-Sonnet、Gemini-2.5-Flash、Grok-3、DeepSeek-Reasoner和Qwen3。

越狱成功率：所有模型在AdvBench有害行为基准测试中，攻击成功率均达到100%。
攻击效率：平均查询次数仅为1.12-2.38次，远低于传统自动化攻击所需的50-90次，意味着算力成本极低且隐蔽性极强。
可迁移性：使用GPT-4o生成的攻击提示词，在其他未参与测试的模型上依然保持**80%-96%**的高成功率，证明这是大语言模型的通用底层漏洞。

值得关注

智能体时代的潜在风险

随着AI智能体（Agent）开始深度接管电脑、手机等终端设备，此类漏洞可能引发严重后果：

权限滥用：若用户通过网页、邮件或PDF输入精心构造的文言文指令，智能体可能在无感知的情况下执行高危操作（如打包发送私密文件）。
防线崩溃：现有的安全对齐机制主要依赖浅层过滤，面对文言文这种“降维打击”显得束手无策。
行业警钟：文言文越狱并非孤立现象，复杂的神经网络黑盒中可能还隐藏着更多未被发现的安全盲区。在将数字生活最高权限交给智能体之前，行业亟需设计更有效的深层安全机制。

阅读原文详情