文言文成AI安全“万能钥匙”：顶级模型越狱成功率近100%

2026/03/11 12:04阅读量 109

ICLR 2026接收的论文揭示，利用文言文语义凝练、多义及隐喻特性构建的CC-BOS框架，能以极低成本绕过全球主流大模型的安全防御。测试显示，包括GPT-4o、Claude-3.7-Sonnet及DeepSeek在内的六款顶级模型在攻击下防线全溃，成功率达100%，平均仅需1-2次查询即可突破。这一发现暴露了现有安全对齐机制的深层漏洞，对即将普及的AI智能体系统构成严峻的安全威胁。

事件概述

近期发表于人工智能顶级会议ICLR 2026的一项研究指出，中国文言文正成为大语言模型（LLM）安全防御机制的“致命漏洞”。研究团队提出的CC-BOS（基于文言文语境的仿生搜索越狱）框架，成功实现了针对当前最先进模型的“越狱”，攻击成功率接近100%。

核心机制：为何文言文能攻破安全防线？

文言文之所以能绕过现代AI的安全过滤，主要归因于其三大语言特性，导致依赖关键词匹配和逻辑判断的安全机制失效：

语义高度凝练：短篇幅包含庞大信息量，难以被常规规则解析。
多义与歧义：同一词汇存在多种解读，非黑即白的判定规则难以适用。
隐喻与修辞：大量使用借代、典故和象征，古代词汇可映射现代敏感概念，混淆检测器视听。

研究团队将大模型弱点拆解为八个维度（如角色认同、行为引导、隐喻映射等），组合出上万种策略。通过引入仿生果蝇算法（Fruit Fly Optimization）进行高效搜索：

嗅觉搜索（局部微调）：随机生成提示词测试，一旦有效则微调词汇或语序。
视觉搜索（集群优化）：发现有效策略后，引导算法向该方向集中迭代。
柯西突变（全局重置）：若当前路径受阻，果断抛弃旧思路，尝试截然不同的策略以命中盲区。

实验结果：顶级模型全线溃败

研究选取了六款当时最先进的模型进行测试：GPT-4o、Claude-3.7-Sonnet、Gemini-2.5-Flash、Grok-3、DeepSeek-Reasoner和Qwen3。结果令人震惊：

攻击成功率：所有模型在AdvBench有害行为基准测试中均被攻破，成功率达到100%。即便是中文能力较强的国产模型也未能幸免。
攻击效率：传统自动化越狱通常需50-90次试探，而CC-BOS的平均查询次数仅为1.12-2.38次，意味着算力成本极低且隐蔽性极强。
可迁移性：基于GPT-4o生成的攻击提示词，在未参与测试的其他模型上依然保持**80%-96%**的高成功率，证明这是大模型的通用底层漏洞。

行业影响与警示

随着AI智能体（Agent）逐步接管操作系统权限，文言文越狱带来的风险已从理论层面转向现实威胁：

权限失控风险：攻击者无需编写复杂木马，仅通过网页、邮件或PDF中的构造指令，即可诱导拥有系统级权限的智能体泄露隐私或执行危险操作。
安全机制局限：现有安全对齐机制仍停留在浅层过滤阶段，无法应对基于文化语境的高级对抗。
未来挑战：文言文仅是已知的一个安全盲区，复杂的神经网络黑盒中可能还隐藏着无数未发现的漏洞。在数字生活全面由智能体托管之前，设计更鲁棒的安全机制已成为行业必须面对的生死大考。

阅读原文详情

事件概述

核心机制：为何文言文能攻破安全防线？

实验结果：顶级模型全线溃败

行业影响与警示

准备好启动您的定制项目了吗？