何恺明首款语言模型ELF：105M参数，不走自回归，扩散路线在连续空间跑通

2026/05/13 09:23阅读量 33

何恺明团队发布首个语言模型ELF，参数规模仅105M，采用连续扩散语言模型（DLM）路线，而非GPT式的自回归。模型将去噪过程完全保留在连续embedding空间，最后一步才离散化为token。在OpenWebText上，ELF仅用45B训练token和32步采样，生成困惑度达到24，显著优于同级别离散扩散模型。

事件概述

何恺明团队发布全新连续扩散语言模型ELF（Embedded Language Flows），参数105M。该模型不走GPT等主流模型使用的自回归“预测下一个词元”范式，而是采用扩散语言模型路线，将生成过程完全保留在连续embedding空间中，直到最后一步才离散化为token。

核心信息

技术路线

ELF属于“连续扩散语言模型”，区别于直接在token空间做扩散的“离散派”。
训练时，离散token先被编码为连续embedding，再加噪；模型在连续空间中去噪（MSE损失），最后一步用交叉熵损失预测token。
推理时从高斯噪声出发，在连续空间执行Flow Matching（采用x-prediction），最后一步通过可学习的unembedding矩阵解码为离散token。
采用classifier-free guidance（CFG）技术，以self-conditioning为条件信号。

性能对比

在OpenWebText生成任务中，ELF仅用32步采样即达生成困惑度24；而主流离散扩散模型通常需要1024步才能接近这一水平。
训练token仅45B，同级别对手普遍为500B+；采样步数少一个数量级，训练数据少一个数量级，效果更好。
在WMT14机器翻译和XSum文本摘要等条件生成任务上，ELF稳定超越现有扩散语言模型，并压制部分自回归baseline。

核心突破

论文指出，此前扩散语言模型进展集中在离散侧，因为“语言本身是离散的”。但ELF证明，连续路线之所以表现不佳，是因为未能“连续到底”——此前方法要么每步对齐词表，要么需要额外训练decoder。ELF将所有去噪留在连续空间，最后一步才离散化，第一次实现了“连续就是连续，离散就是离散”。

共同一作胡珂雅（MIT EECS博士生，恺明在MIT的首批博士生之一）和Linlu Qiu（MIT博士生）。
其他作者包括MIT本科生Hanhong Zhao（IPhO金牌）、清华姚班本科生陆伊炀、MIT博后黎天鸿（此前《Back to Basics》一作），以及MIT教授Jacob Andreas、Yoon Kim和何恺明本人。

阅读原文详情

事件概述

核心信息

技术路线

性能对比

核心突破

准备好启动您的定制项目了吗？