何恺明组新作MiniT2I:仅258M参数文生图,训练成本接近ImageNet实验

2026/06/18 17:12阅读量 8

何恺明团队提出MiniT2I文生图模型,基于MM-JiT架构,在像素空间直接扩散,去除了VAE和AdaLN等组件,仅258M参数即可实现有效生成。训练成本仅相当于一次标准ImageNet实验(8张H100约3天)。B/16版本在GenEval达0.87,DPG-Bench达84.2。团队除何恺明外均为本科生。

事件概述

何恺明团队继去年提出JiT架构后,将“删繁就简”思路扩展至文生图领域,发布新工作MiniT2I。该模型基于全新MM-JiT架构,在像素空间直接进行扩散生成,仅用258M参数实现较好的文生图效果,训练成本接近一次标准ImageNet实验。

核心方法:MM-JiT

  • 摒弃VAE:直接在像素空间扩散,计算开销从1379 GFLOPs降至265 GFLOPs,降低约80%。
  • 移除AdaLN:认为噪声水平已包含在输入z_t中,无需额外时间步信息通道。条件信息仅通过联合注意力路径进入模型,骨干网络回归Pre-Norm Transformer形式。
  • 文本适配:在联合注意力前增加两个Text Adapter Block,用于适配冻结的T5文本特征。
  • 流匹配框架:网络直接预测干净图像(x-prediction),而非预测噪声。

训练与数据

  • 第一阶段:CC12M数据集预训练25万步。
  • 第二阶段:12万张高质量合成图像微调4万步。
  • 算力:8块H100 GPU,约3天。

性能指标

  • B/16版本(参数量<600M):GenEval 0.87,DPG-Bench 84.2,超过多款参数规模更大的像素空间文生图模型。
  • L/16版本:PRISM-Bench 62.4(FLUX.1-dev为68.5);在风格表现和开放想象力维度超越FLUX;弱势在文字渲染和命名实体生成,与公开训练数据覆盖范围有关。

团队构成

论文共六位作者,除何恺明(MIT EECS终身副教授,Google DeepMind杰出科学家)外,其余五位均为MIT或清华的本科生,包括王衔邦(IMO金牌,首位作者)、赵瀚宏(IPhO金牌)、陆伊炀(清华姚班)、周康阳(IOI金牌满分)、马麟瑞(IChO金牌)。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。