GPT Image 2 中文渲染突破:一位MIT博士在OpenAI的“修字”之路
2026/05/02 17:52阅读量 2
OpenAI 发布 GPT Image 2(ChatGPT Images 2.0),显著提升了模型的中文文字渲染能力,可一次性生成包含多国语言、极小文字、画中画及视觉证明的复杂图像。该模型主力训练者为研究科学家陈博远(MIT博士),他长期研究世界模型、空间理解与生成一致性,此次在知乎回应了中文用户,并详解了多项能力测试背后的设计思路。
事件概述
OpenAI 研究科学家陈博远在知乎发文,宣布其主力训练的 GPT Image 2 模型已修复中文渲染问题,并邀请中文用户直接反馈。该模型在 LMArena 双盲测试中代号为“duct-tape”(布基胶带),发布后因其强大的中文文字生成能力引发关注——不仅能够正确书写汉字,还能进行排版、分段并生成带逻辑结构的中文信息图,打破了此前 AI 图像模型“看不懂字”的瓶颈。
核心信息
- 陈博远背景:MIT 电子工程与计算机科学博士(辅修哲学),曾于 Google DeepMind 参与多模态模型研究。其研究方向聚焦于世界模型、具身智能和强化学习,代表性工作包括 Diffusion Forcing(整合逐步生成与整体约束)和 SpatialVLM(三维空间推理)。
- 团队规模:GPT Image 2 核心团队成员约十余人,包含多位华裔研究者(如王剑锋、梁伟新、杨宇光等)。陈博远在致谢中强调这是一次研究、产品、审美与传播的协同成果。
- 能力展示背后的测试逻辑:
- 中文彩蛋漫画:一次性生成包含画中画、多国语言文字及极小中文的复杂图像,用于测试模型对层级结构的控制力。
- 米粒刻字:4K 图中极微小尺度下的文字渲染测试。
- 黑板视觉证明:要求模型用图形而非代数证明“从1开始的奇数之和是平方数”,考察其对抽象关系的视觉化推理能力。
- 模型定位:GPT Image 2 不再仅追求像素级逼真,而是将图像视为包含文字、排版、层级、对象关系和审美判断的“结构表达”,这也是其与以往图像生成模型的关键区别。
值得关注
陈博远个人博客曾以“珍珠奶茶”为指标对美计算机名校进行排名,其知乎名为“MIT奶茶店长”,展现出鲜明的个人风格。但更重要的是,他的研究路径避开了单纯优化分辨率或风格的方向,转而探索如何让模型在内部建立对世界的稳定表征——这一思路直接体现在 GPT Image 2 对复杂结构信息的一体化生成能力上。
