OpenAI Codex 三种电脑操作权限详解:从兜底方案到隔离环境
2026/06/21 10:09阅读量 2
OpenAI Codex 新推出三类电脑操作权限:Computer Use 兜底方案、Chrome 插件带身份授权、应用内浏览器隔离环境。每种方案对应不同场景,设计上以结构化接口优先,视觉操作为兜底,避免低效点击。
事件概述
OpenAI Codex 近期重点推进了让 AI 操作电脑的能力,由工程师 Jason Liu 详细解释了三种不同的电脑操作权限体系:Computer Use、Chrome 插件和应用内浏览器。这三类方案并非冗余,而是针对不同任务场景设计的权限分级方案。
核心信息
1. Computer Use(兜底方案)
- 能力边界最宽:直接看屏幕操作任意图形界面,无需 API 接口支持。
- 适用场景:无 API 的原生 GUI 应用、多应用切换流程、补全结构化集成的缺失步骤等。典型用例:自动与客服对话完成退款(如文章开头的案例)。
- 缺点:效率低,需逐帧识别操作。OpenAI 提醒:涉及资金、隐私等敏感操作需人工在场,建议只开放目标应用权限。
2. Chrome 插件(带身份授权)
- 适用场景:需要账号身份的网页任务,如 Gmail、企业内部后台、持续监测社交平台并归档内容。全程无需重新授权。
- 推荐:若整个任务都在浏览器内完成,优先选择此方案。
3. 应用内浏览器(隔离环境)
- 能力:独立运行在 Codex 对话中,不使用用户浏览器的 Cookie、配置和登录态。
- 适用场景:Web 应用本地开发调试、复现视觉 bug、处理无需登录的公共页面。支持用户对页面元素直接批注反馈,提升开发沟通效率。
OpenAI 的设计思路
- AI 越像人类点击操作屏幕,效率、可靠性越低,信任成本越高。结构化接口才是最优方案,视觉操作仅作为兜底补位。
- 总结使用规则:跨应用任务选 Computer Use;需登录身份的网页任务选 Chrome 插件;独立干净的网页开发任务选应用内浏览器。
