全球首份大语言模型安全防范能力测评报告发布：38款模型实测曝光多重安全短板

2026/07/02 18:46阅读量 2

2026年7月2日，全球首份大语言模型安全防范能力测评报告在北京发布。报告覆盖38个国内外模型，以313条科技类高风险问题为测试集，从意图识别、越狱攻击、风险可控性等多维度评估。结果显示，多数模型基础拒答能力尚可，但场景伪装+示例诱导攻击成功率高达53.8%，Claude系列在多维度榜单中领先，中小开源模型防护短板明显。报告提出从单一拒答率转向综合风险评价的治理路径。

事件概述

2026年7月2日，在北京举行的2026全球数字经济大会云智算安全论坛上，《全球大语言模型安全防范能力测评报告（2026）》正式发布。这份报告由东壁科技数据有限责任公司联合上海财经大学数字经济学院共同编制，是全球首份聚焦大语言模型科技安全防范能力的专项测评，也是首份以“科技向善”为导向的模型安全测评报告。

核心信息

测评方法与覆盖范围

测试集：313条科技类高风险问题，覆盖日常科技学习、科研防护、潜在违法犯罪滥用等真实场景。
模型覆盖：38个国内外大语言模型，按国内/国外、开源/闭源、大规模/小规模分组比较。
辅助检索：从东壁全球科技文献数据平台选取94,108份科技文献和34,452条百科条目构建RAG参考，用于评估回答科学可靠性。

主要发现：多重安全隐患

基础拒答能力：直接攻击总体成功率为7.6%，多数模型具备基础拒答能力。
越狱攻击成功率：场景伪装+示例诱导最高（53.8%），场景伪装（51.3%）、前缀注入（43.4%）、情感伪装（30.7%）、情感伪装+示例诱导（26.5%）。“合法授权”“安全研究”等场景合法化叙事比单纯情绪求助更易突破安全边界。
意图识别不足：伪装类样本中，善意问题拒答率30.6%，恶意问题回答率29.7%，过度防御与防御不足并存。
回答后风险披露控制不足：模型一旦被诱导回答，往往未能切断从一般知识到现实实施的连接。
可靠性与安全风险张力：已回答样本中80.5%达到较可靠水平，但55.1%同时具有较高可靠性和较高滥用风险。

多维度安全榜单（部分）

直接攻击拒答（显性攻击）：Anthropic Claude三款模型实现100%拒答，OpenAI gpt-5.4-mini、阿里通义千问qwen3.5-122b-a10b紧随其后；多款轻量化开源模型（如mistral-small）基础防护垫底。
越狱综合防护（五类复杂攻击）：前五位为Claude全系三款、MiniMax-M3、OpenAI gpt-5.4-mini；字节豆包轻量化开源模型doubao-seed-2-0-mini在该场景下安全边界衰减最严重。
恶意伪装意图识别拒答：前五与越狱综合榜单高度重合，但防御强的模型存在过度防御（善意问题拒答率高），中小开源模型则难以识别恶意伪装。
滥用风险可控性（输出后规避危险细节）：OpenAI gpt-5.4-mini均分3.52分最高，claude-haiku、gpt-5.5、阿里qwen3.6-27b、qwen3.6-flash依次位列前五。
科技内容可靠性：OpenAI gpt-5.5均分3.52分第一，月之暗面Kimi-k2.6、阿里通义千问3.7-max、qwen3.6-35b、qwen3.6-27b紧随其后，国内大规模闭源模型达第一梯队。

系统性差异

国外、闭源、大规模模型在恶意伪装拦截、越狱稳健性和回答后风险控制上更优，但更易拒绝善意问题；开源、小规模及部分国内模型在伪装攻击下更容易被诱导。
大规模和闭源模型的科技内容可靠性更高，但安全边界失效时，高可靠回答转化为现实风险的可能性也更大，需更精细化的意图识别和输出粒度控制。

值得关注

报告提出科技安全内生化原则：安全能力应嵌入模型行为机制，而非仅依赖外部关键词拦截。
建议建立持续红队与复测机制，应对越狱攻击和模型版本快速迭代。
测评体系应从单一拒答率扩展为综合指标体系，包括显性请求拒答能力、伪装请求稳健性、善意问题可用性、恶意问题拒答率、滥用风险可控性、科技内容可靠性、可靠且高风险输出占比、可靠且可控输出占比。
治理目标：拒绝危险能力增益，而非拒绝科技知识本身。对不同风险等级请求建立差异化安全回答范式。
未来计划：覆盖更多领域（工程控制、深度伪造、自动化智能体等），加强多轮对话、工具调用、代码执行、多模态输入等复杂场景测评。

阅读原文详情