何恺明组新作MiniT2I：仅258M参数文生图，训练成本接近ImageNet实验

2026/06/18 17:12阅读量 8

何恺明团队提出MiniT2I文生图模型，基于MM-JiT架构，在像素空间直接扩散，去除了VAE和AdaLN等组件，仅258M参数即可实现有效生成。训练成本仅相当于一次标准ImageNet实验（8张H100约3天）。B/16版本在GenEval达0.87，DPG-Bench达84.2。团队除何恺明外均为本科生。

事件概述

何恺明团队继去年提出JiT架构后，将“删繁就简”思路扩展至文生图领域，发布新工作MiniT2I。该模型基于全新MM-JiT架构，在像素空间直接进行扩散生成，仅用258M参数实现较好的文生图效果，训练成本接近一次标准ImageNet实验。

核心方法：MM-JiT

摒弃VAE：直接在像素空间扩散，计算开销从1379 GFLOPs降至265 GFLOPs，降低约80%。
移除AdaLN：认为噪声水平已包含在输入z_t中，无需额外时间步信息通道。条件信息仅通过联合注意力路径进入模型，骨干网络回归Pre-Norm Transformer形式。
文本适配：在联合注意力前增加两个Text Adapter Block，用于适配冻结的T5文本特征。
流匹配框架：网络直接预测干净图像（x-prediction），而非预测噪声。

训练与数据

第一阶段：CC12M数据集预训练25万步。
第二阶段：12万张高质量合成图像微调4万步。
算力：8块H100 GPU，约3天。

性能指标

B/16版本（参数量<600M）：GenEval 0.87，DPG-Bench 84.2，超过多款参数规模更大的像素空间文生图模型。
L/16版本：PRISM-Bench 62.4（FLUX.1-dev为68.5）；在风格表现和开放想象力维度超越FLUX；弱势在文字渲染和命名实体生成，与公开训练数据覆盖范围有关。

团队构成

论文共六位作者，除何恺明（MIT EECS终身副教授，Google DeepMind杰出科学家）外，其余五位均为MIT或清华的本科生，包括王衔邦（IMO金牌，首位作者）、赵瀚宏（IPhO金牌）、陆伊炀（清华姚班）、周康阳（IOI金牌满分）、马麟瑞（IChO金牌）。

阅读原文详情

事件概述

核心方法：MM-JiT

训练与数据

性能指标

团队构成

准备好启动您的定制项目了吗？