何恺明首款语言模型ELF:105M参数,不走自回归,扩散路线在连续空间跑通
2026/05/13 09:23阅读量 33
何恺明团队发布首个语言模型ELF,参数规模仅105M,采用连续扩散语言模型(DLM)路线,而非GPT式的自回归。模型将去噪过程完全保留在连续embedding空间,最后一步才离散化为token。在OpenWebText上,ELF仅用45B训练token和32步采样,生成困惑度达到24,显著优于同级别离散扩散模型。
事件概述
何恺明团队发布全新连续扩散语言模型ELF(Embedded Language Flows),参数105M。该模型不走GPT等主流模型使用的自回归“预测下一个词元”范式,而是采用扩散语言模型路线,将生成过程完全保留在连续embedding空间中,直到最后一步才离散化为token。
核心信息
技术路线
- ELF属于“连续扩散语言模型”,区别于直接在token空间做扩散的“离散派”。
- 训练时,离散token先被编码为连续embedding,再加噪;模型在连续空间中去噪(MSE损失),最后一步用交叉熵损失预测token。
- 推理时从高斯噪声出发,在连续空间执行Flow Matching(采用x-prediction),最后一步通过可学习的unembedding矩阵解码为离散token。
- 采用classifier-free guidance(CFG)技术,以self-conditioning为条件信号。
性能对比
- 在OpenWebText生成任务中,ELF仅用32步采样即达生成困惑度24;而主流离散扩散模型通常需要1024步才能接近这一水平。
- 训练token仅45B,同级别对手普遍为500B+;采样步数少一个数量级,训练数据少一个数量级,效果更好。
- 在WMT14机器翻译和XSum文本摘要等条件生成任务上,ELF稳定超越现有扩散语言模型,并压制部分自回归baseline。
核心突破
论文指出,此前扩散语言模型进展集中在离散侧,因为“语言本身是离散的”。但ELF证明,连续路线之所以表现不佳,是因为未能“连续到底”——此前方法要么每步对齐词表,要么需要额外训练decoder。ELF将所有去噪留在连续空间,最后一步才离散化,第一次实现了“连续就是连续,离散就是离散”。
- 共同一作胡珂雅(MIT EECS博士生,恺明在MIT的首批博士生之一)和Linlu Qiu(MIT博士生)。
- 其他作者包括MIT本科生Hanhong Zhao(IPhO金牌)、清华姚班本科生陆伊炀、MIT博后黎天鸿(此前《Back to Basics》一作),以及MIT教授Jacob Andreas、Yoon Kim和何恺明本人。
