同一天,OpenAI 和 Google 各甩出一张牌:但你知道自己在用哪个模型吗?

2026年3月4日,OpenAI 推出 GPT-5.3 Instant 以优化语气并降低幻觉率,Google 同日发布 Gemini 3.1 Flash-Lite 主打极速与低成本。尽管两家巨头在技术层面取得进展,但社区对 OpenAI 新模型的“说教感”残留表示不满,且对日益混乱的模型命名体系感到困惑。这种高频次的发布策略虽反映了激烈的市场竞争,却也导致了信息噪音,使得普通用户难以辨别自己实际使用的模型版本。

今天,AI 圈又热闹了。 北京时间 3 月 4 日,OpenAI 正式推送 GPT-5.3 Instant,覆盖全量 ChatGPT 用户;同一天,Google 也发布了 Gemini 3.1 Flash-Lite,宣称这是 Gemini 3 系列"速度最快、最具成本效益"的模型。 ![Image 1](https://img.huxiucdn.com/article/content/26-03-04/47dd75e8-47af-49bd-823b-47bc542adb61.png?imageView2/2/w/1000/format/png/interlace/1/q/85) 两场发布,相差不到两小时。 技术媒体在刷屏,X 上的 AI 博主在解读基准测试,开发者群里在讨论 API 价格。与此同时,Reddit 上有人直接发帖:"GPT-5.3 is awful",101 人点赞,好评率 98%。 这就是 2026 年 AI 圈的日常:发布密度比手机厂商还高,社区永远两极分化,普通用户被淹没在一堆从没听说过的模型名字里。 但在吐槽之前,我们还是得先把事情讲清楚——今天到底发了什么。 一、GPT-5.3 Instant:终于不说教了 OpenAI 这次发布,罕见地没有端出一堆跑分图表。官方博客的重点只有一个词:tone(语气)。 用 OpenAI 官方的说法,GPT-5.2 Instant 有时会"对本可以安全回答的问题拒绝作答",在涉及敏感话题时"过于保守,带着说教色彩"。就是那种你问它"帮我写一段反派台词",它先用三句话告诉你"暴力内容可能……"然后再写,或者干脆拒绝的感觉。 ![Image 2](https://img.huxiucdn.com/article/content/26-03-04/7daa3843-e337-4dab-ba6b-e990701f8fde.png?imageView2/2/w/1000/format/png/interlace/1/q/85) 更多案例在这里查看:https://openai.com/zh-Hans-CN/index/gpt-5-3-instant/ GPT-5.3 Instant 的主要改动有三点: ①去掉"AI 腔"式开场白。不再以"这是个很好的问题!""首先,我想提醒你……"等免责宣言开头,能直接回答的就直接回答。减少了不必要的拒绝,削减了过度防御式的说教铺垫。 ②幻觉率显著下降。OpenAI 在医疗、法律、金融等高风险领域做了内部测试,联网模式下幻觉率降低 26.8%,仅依靠自身知识库时降低 19.7%。在基于用户真实反馈的评估中,联网下降 22.5%,非联网下降 9.6%。这次没有拿 benchmark 说话,而是用"真实对话中被用户标记为事实错误的样本"做的测试,更接地气。 ③联网搜索整合更聪明。以前的版本有时会把搜索结果直接堆砌出来,像个链接收集器。现在它能用自己的知识图谱为实时信息提供背景,不再是"我帮你搜到了,原文如下"。 GPT-5.3 Instant 即日起面向所有 ChatGPT 用户开放,API 标识符为 gpt-5.3-chat-latest。旧版 GPT-5.2 Instant 将保留至 2026 年 6 月 3 日后退役。 再来个彩蛋:GPT-5.4 即将到来。(评论区有说是明天) ![Image 3](https://img.huxiucdn.com/article/content/26-03-04/74233204-ea0b-4a15-bada-a83bf0dd30af.png?imageView2/2/w/1000/format/png/interlace/1/q/85) 二、Google 最近其实发了两个模型 GPT-5.3 Instant 的声量盖住了 Google 这边的动静,但 Google 最近其实发了两张牌。 第一张:Gemini 3.1 Pro(2 月 19 日) 这是这波升级的核心。Google 在发布时直接给出了一个震撼的数字:在 ARC-AGI-2 基准测试中,Gemini 3.1 Pro 得分 77.1%,而上一代 Gemini 3 Pro 只有 31.1%——推理能力翻超两倍。 ARC-AGI-2 不是知识型考题,考的是模型面对"从没见过的逻辑模式"时能否推理出正确答案,是目前公认最难刷分的测试之一。77.1% 是经过 ARC Prize 官方验证的数据。 ![Image 4](https://img.huxiucdn.com/article/content/26-03-04/9a58ce5e-fd5f-4180-99c1-ceb93a515fee.png?imageView2/2/w/1000/format/png/interlace/1/q/85) 其他核心指标: * SWE-Bench Verified(代码能力):80.6% * Terminal-Bench 2.0:68.5% * 在 16 项主流基准测试中,Gemini 3.1 Pro 赢了 13 项(对比 GPT-5.2 和 Claude Opus 4.6) 模型现已面向开发者、企业和消费者全面铺开,可通过 Gemini API、Vertex AI、AI Studio、Gemini Enterprise、NotebookLM 以及 Gemini CLI 访问,消费端则需要 Google AI Pro 或 Ultra 订阅。 第二张:Gemini 3.1 Flash-Lite(3 月 4 日,今天) 定位完全不同:这是给开发者用的"量大管饱"版本。 核心参数: * 输出速度 363 tokens/s,比 Gemini 2.5 Flash 快 45% * 首字符响应时间比 Gemini 2.5 Flash 快 2.5 倍 * 支持最大 100 万 token 输入、6.4 万 token 输出 * 多模态:文本、图像、视频、音频全支持 * 定价:输入$0.25/百万 tokens,输出$1.50/百万 tokens,约为 Pro 版的八分之一 ![Image 5](https://img.huxiucdn.com/article/content/26-03-04/e1691ed1-b7f3-4be5-a27e-c7ada944581d.png?imageView2/2/w/1000/format/png/interlace/1/q/85) GPQA Diamond 测试达到 86.9%,MMMU Pro 达到 76.8%,在多项指标上超越了上一代 Gemini 2.5 Flash。 它还内置了可调节的"思考层级(thinking levels)"——开发者可以根据任务复杂度自由控制模型的推理深度,高频简单任务省算力,复杂任务加预算,相当实用。 三、但社区并不买账 说完优点,来说说用户怎么看。 GPT-5.3 Instant 推送当天,Reddit 上的 r/ChatGPTcomplaints 版块迅速出现了一篇热帖,标题直接:"GPT-5.3 is awful"。帖子获得 101 个点赞,好评率 98%,评论区清一色在骂。 原帖作者写道: "Arrogant:Often sounds like an annoying teacher correcting a student(傲慢:听起来像个烦人的老师在纠正学生)。Condescending:Uses phrases like'take a breath,writer…'in a patronizing tone(居高临下:用'停一下,深呼吸,写作者……'这种居高临下的语气)。" 评论区有人补刀: "我真以为他们造不出比 5.2 更烂的模型了。结果 OpenAI 再次超越了我的预期。" "5.3 本质上就是 5.2,没用、有限制、情感操控,但是多加了一些 emoji。" 当然,也有理性的声音。一位用户写道:"回答确实更直接了,少了很多修饰语和限定词,我觉得是有进步的。" Hacker News 上的讨论更有意思。一位自称 OpenAI 员工的用户亲自下场回复,澄清了一个很多人不知道的事实:ChatGPT 后台实际上运行的是两个系列——Instant 系列(更快但更弱)和 Thinking 系列(更准但更慢),系统会自动切换。 ![Image 6](https://img.huxiucdn.com/article/content/26-03-04/44d2e8f9-6063-4a15-a04f-bd91dc0356f8.png?imageView2/2/w/1000/format/png/interlace/1/q/85) 讨论链接:https://news.ycombinator.com/item?id=47236169 然后就有另一个企业用户回复说: "我们公司用 ChatGPT Enterprise,每次有人抱怨效果差,回头一查,全都是在用 Instant 模型。" 还有人一针见血: "我感觉 OpenAI 又要回到 GPT-5 之前那个状态了——一堆不同的选项,没人知道该用哪个。" 四、模型命名,正在成为行业公害 这句话值得展开聊。 先来做个测试。请问以下这串名字,你能全部对上号吗: GPT-5/GPT-5.1/GPT-5.2/GPT-5.2 Pro/GPT-5.2-Codex/GPT-5.3 Instant/GPT-5.3-Codex/GPT-5.3-Codex-Spark…… Gemini 3/Gemini 3 Pro/Gemini 3 Deep Think/Gemini 3.1 Pro/Gemini 3.1 Flash-Lite/Gemini 3.1 Flash-Image…… 顺便提一句,Gemini 3 Pro Preview 将于 3 月 9 日正式下线,取而代之的是 Gemini 3.1 Pro——就在用户刚刚搞清楚 3 和 3.1 的区别之前,Flash-Lite 又来了。 这还只是过去三个月内的变化。 科技媒体 The Verge 有一篇文章,标题用的是"Google's AI product names are confusing as hell(Google 的 AI 产品名字乱得要命)",文中直接用了"diabolical(魔鬼级混乱)"来形容 Google 的命名逻辑。文章里列出的一串名字读起来像是在背咒语:Deep Think、Deep Search、AI Pro、AI Ultra、Gemini Live、Project Astra、Project Mariner、Veo、Flow、Lyria、Imagen…… ![Image 7](https://img.huxiucdn.com/article/content/26-03-04/622a3ea5-e936-4ba0-aa77-db2fd61120a5.png?imageView2/2/w/1000/format/png/interlace/1/q/85) Anthropic CEO Dario Amodei 曾在公开场合自嘲说:"我们可能在学会命名模型之前,就先造出 AGI 了。" 这句话是个玩笑,但背后的现实不好笑:普通用户面对这张越来越密的模型矩阵,早已失去了辨别的动力。 五、这么频繁发布,究竟是为了什么? 公平起见,我们不该只是嘲笑。 这种高频迭代不是没有原因的。Google 和 OpenAI 都清楚地知道对方在做什么——Gemini 3.1 Flash-Lite 发布两小时内,GPT-5.3 Instant 就上线了;GPT-5.3 Instant 推送当天,GitHub 上已经出现了 GPT-5.4 相关代码的泄露痕迹。在这种实时博弈的节奏下,没人敢停下来。 同时,这两次发布也对应着不同的竞争逻辑。 Google 用 Flash-Lite 打的是 B 端成本战:$0.25 的输入价格摆在那里,对于每天要跑数百万次调用的开发者来说,这比性能分数更有说服力。 OpenAI 用 GPT-5.3 打的是 C 端留存战:就在发布前后,因为与美国军方合作的风波,网上正在蔓延一场#QuitGPT 运动,Anthropic 甚至趁势推出了"一键迁移 ChatGPT 对话记录"的服务。在这个时间节点优化用户体验,有多少是技术驱动,有多少是公关救火,恐怕只有内部人士才清楚。 但无论背后动机如何,频繁发布本身开始变成一种信息噪音。 当每次发布都叫"最强""突破性""全面领先",当版本号以小数点 0.1 的速度叠加,当用户连自己在用第几代模型都说不清楚的时候——这场军备竞赛的受益者,可能已经不是用户了。 结语 今天两家公司的发布,有真进步,也有真问题。 GPT-5.3 Instant 在体验层上做了有意义的改进,幻觉率下降的数据如果属实,对实际使用是有价值的;Gemini 3.1 Flash-Lite 的价格策略很有攻击性,对开发者生态的影响会慢慢显现。 但我们也应该正视:当"发布新模型"本身成为一种竞争信号,而不只是技术成熟的标志时,这个行业的叙事节奏已经跑偏了一点。 你现在打开 ChatGPT,用的是 Instant 还是 Thinking?你上次问 Gemini 问题,用的是 3 还是 3.1? 大概率,你也不确定。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。