GPT Image 2 中文渲染突破:一位MIT博士在OpenAI的“修字”之路

2026/05/02 17:52阅读量 2

OpenAI 发布 GPT Image 2(ChatGPT Images 2.0),显著提升了模型的中文文字渲染能力,可一次性生成包含多国语言、极小文字、画中画及视觉证明的复杂图像。该模型主力训练者为研究科学家陈博远(MIT博士),他长期研究世界模型、空间理解与生成一致性,此次在知乎回应了中文用户,并详解了多项能力测试背后的设计思路。

事件概述

OpenAI 研究科学家陈博远在知乎发文,宣布其主力训练的 GPT Image 2 模型已修复中文渲染问题,并邀请中文用户直接反馈。该模型在 LMArena 双盲测试中代号为“duct-tape”(布基胶带),发布后因其强大的中文文字生成能力引发关注——不仅能够正确书写汉字,还能进行排版、分段并生成带逻辑结构的中文信息图,打破了此前 AI 图像模型“看不懂字”的瓶颈。

核心信息

  • 陈博远背景:MIT 电子工程与计算机科学博士(辅修哲学),曾于 Google DeepMind 参与多模态模型研究。其研究方向聚焦于世界模型、具身智能和强化学习,代表性工作包括 Diffusion Forcing(整合逐步生成与整体约束)和 SpatialVLM(三维空间推理)。
  • 团队规模:GPT Image 2 核心团队成员约十余人,包含多位华裔研究者(如王剑锋、梁伟新、杨宇光等)。陈博远在致谢中强调这是一次研究、产品、审美与传播的协同成果。
  • 能力展示背后的测试逻辑
    • 中文彩蛋漫画:一次性生成包含画中画、多国语言文字及极小中文的复杂图像,用于测试模型对层级结构的控制力。
    • 米粒刻字:4K 图中极微小尺度下的文字渲染测试。
    • 黑板视觉证明:要求模型用图形而非代数证明“从1开始的奇数之和是平方数”,考察其对抽象关系的视觉化推理能力。
  • 模型定位:GPT Image 2 不再仅追求像素级逼真,而是将图像视为包含文字、排版、层级、对象关系和审美判断的“结构表达”,这也是其与以往图像生成模型的关键区别。

值得关注

陈博远个人博客曾以“珍珠奶茶”为指标对美计算机名校进行排名,其知乎名为“MIT奶茶店长”,展现出鲜明的个人风格。但更重要的是,他的研究路径避开了单纯优化分辨率或风格的方向,转而探索如何让模型在内部建立对世界的稳定表征——这一思路直接体现在 GPT Image 2 对复杂结构信息的一体化生成能力上。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。