从模型安全到系统重构：Agent 时代的控制权之争与 Agentic Web 新挑战

2026/03/31 16:08阅读量 53

随着 Agent 具备跨应用执行和自主决策能力，安全风险已从单一的模型输出层面（如提示词注入）扩展至包含记忆、工具链及外部环境的复杂系统。核心威胁本质是攻击者争夺对 Agent 决策控制权的“静默偏移”，而非瞬间失控。在 Agentic Web 中，由于主体间交互取代了人与人交互，传统的信任机制失效，亟需建立身份认证、授权溯源及运行时治理等基础设施以应对长期潜伏的供应链与行为漂移风险。

事件概述

近期 OpenClaw（文中亦称“龙虾”）等 Agent 应用的爆发，标志着 AI 从“生成内容的工具”向“参与行动的主体”转变。这一转变使得安全问题不再局限于模型层面的鲁棒性，而是演变为由模型、记忆、工具、环境及交互链路共同构成的系统性风险。上海交通大学张伟楠团队在论文《From Secure Agentic AI to Secure Agentic Web》中指出，当前的讨论多聚焦于表层问题，而忽视了 Agent 在开放环境中自主行动带来的深层控制权争夺。

核心信息

1. 安全范式的根本转移

从“说话”到“做事”：传统 Chatbot 仅涉及文本输入输出，而现代 Agent 具备调用工具、写入长期记忆及操作外部系统的能力。风险不再仅是“生成错误内容”，而是直接转化为现实世界的动作（如删除文件、泄露隐私、自动发送敏感邮件）。
核心定义变化：安全重心应从“模型会不会说话”转向“整个系统在开放环境中是否可控、可审计、可约束”。
攻击本质：无论是 Prompt 攻击、环境注入、记忆投毒还是工具链问题，其统一本质是争夺对 Agent 决策的控制权。攻击者旨在让 Agent 在看似正常的情况下被悄悄带偏。

2. 关键风险维度

环境即攻击面：网页内容、文档信息及第三方服务返回的数据均被视为潜在的攻击源。系统安全需默认外部环境带有恶意意图，而非默认可信。
工具链即供应链：Agent 依赖的第三方工具、API 或插件构成了类似软件供应链的风险面。被污染的工具提供方或不可靠接口可能导致严重后果，且多个安全工具组合调用时可能产生联动风险。
MCP 的双重性：Model Context Protocol (MCP) 虽统一了上下文和工具交互方式，提升了协作效率，但也作为统一入口集中放大了权限、信任及污染风险。

3. 被低估与高估的风险

被高估：单轮越狱、即时攻破等直观且易被发现的风险。
被低估：更接近真实部署场景的长期风险，包括长期记忆污染、Agent 间的传播效应及行为偏移。成熟的攻击不会导致瞬间失控，而是通过改变 Agent 的偏好、信任对象和决策倾向，使其在微小决策中持续漂移，这种隐蔽性更难检测。

4. Agentic Web 的新挑战

信任机制崩塌：在互联网时代，请求端通常默认为人；而在 Agentic Web 中，请求来自其他 Agent 或多层委托。基于常识建立的信任关系失效，必须转变为显式表达，并具备可验证、可审计和可追踪能力。
责任追溯困难：当 Agent 出现问题时，难以区分是自身判断错误、被其他 Agent 误导还是中间环节被污染，类似于追查资金链条般困难。
长期潜伏攻击：攻击者可能采取长期潜伏策略，不制造明显事故，而是潜移默化地改变 Agent 的行为模式。

值得关注

解决方案与未来方向

超越 System Prompt：System Prompt 和拒答机制仅是第一层护栏，无法覆盖整个攻击面。可靠的安全方案需结合工具权限控制、运行时监控、协议级校验及持续的红队测试。
构建安全基础设施：行业需在两三年内将身份、授权、溯源及运行时治理能力做成基础设施。若仅依赖 Prompt 工程或局部补丁，无法支撑 Agent 大规模进入开放网络。
标准化安全协议：未来的安全机制可能以类似 MCP 的“统一协议”形式出现，通过标准化让整个 Agent 生态在运行过程中更安全，实现从“能用但危险”到“可扩展且可治理”的转变。
管理张力：能力增强与风险控制之间存在不可避免的张力。解决之道在于设计可控系统，通过分级授权、实时监测及事后追溯，将这种张力转化为可管理的状态。

阅读原文详情