GPT Image 2 中文渲染突破：一位MIT博士在OpenAI的“修字”之路

2026/05/02 17:52阅读量 2

OpenAI 发布 GPT Image 2（ChatGPT Images 2.0），显著提升了模型的中文文字渲染能力，可一次性生成包含多国语言、极小文字、画中画及视觉证明的复杂图像。该模型主力训练者为研究科学家陈博远（MIT博士），他长期研究世界模型、空间理解与生成一致性，此次在知乎回应了中文用户，并详解了多项能力测试背后的设计思路。

事件概述

OpenAI 研究科学家陈博远在知乎发文，宣布其主力训练的 GPT Image 2 模型已修复中文渲染问题，并邀请中文用户直接反馈。该模型在 LMArena 双盲测试中代号为“duct-tape”（布基胶带），发布后因其强大的中文文字生成能力引发关注——不仅能够正确书写汉字，还能进行排版、分段并生成带逻辑结构的中文信息图，打破了此前 AI 图像模型“看不懂字”的瓶颈。

核心信息

陈博远背景：MIT 电子工程与计算机科学博士（辅修哲学），曾于 Google DeepMind 参与多模态模型研究。其研究方向聚焦于世界模型、具身智能和强化学习，代表性工作包括 Diffusion Forcing（整合逐步生成与整体约束）和 SpatialVLM（三维空间推理）。
团队规模：GPT Image 2 核心团队成员约十余人，包含多位华裔研究者（如王剑锋、梁伟新、杨宇光等）。陈博远在致谢中强调这是一次研究、产品、审美与传播的协同成果。
能力展示背后的测试逻辑：
- 中文彩蛋漫画：一次性生成包含画中画、多国语言文字及极小中文的复杂图像，用于测试模型对层级结构的控制力。
- 米粒刻字：4K 图中极微小尺度下的文字渲染测试。
- 黑板视觉证明：要求模型用图形而非代数证明“从1开始的奇数之和是平方数”，考察其对抽象关系的视觉化推理能力。
模型定位：GPT Image 2 不再仅追求像素级逼真，而是将图像视为包含文字、排版、层级、对象关系和审美判断的“结构表达”，这也是其与以往图像生成模型的关键区别。

值得关注

陈博远个人博客曾以“珍珠奶茶”为指标对美计算机名校进行排名，其知乎名为“MIT奶茶店长”，展现出鲜明的个人风格。但更重要的是，他的研究路径避开了单纯优化分辨率或风格的方向，转而探索如何让模型在内部建立对世界的稳定表征——这一思路直接体现在 GPT Image 2 对复杂结构信息的一体化生成能力上。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？