何恺明首款语言模型ELF:105M参数,不走自回归,扩散路线在连续空间跑通

2026/05/13 09:23阅读量 33

何恺明团队发布首个语言模型ELF,参数规模仅105M,采用连续扩散语言模型(DLM)路线,而非GPT式的自回归。模型将去噪过程完全保留在连续embedding空间,最后一步才离散化为token。在OpenWebText上,ELF仅用45B训练token和32步采样,生成困惑度达到24,显著优于同级别离散扩散模型。

事件概述

何恺明团队发布全新连续扩散语言模型ELF(Embedded Language Flows),参数105M。该模型不走GPT等主流模型使用的自回归“预测下一个词元”范式,而是采用扩散语言模型路线,将生成过程完全保留在连续embedding空间中,直到最后一步才离散化为token。

核心信息

技术路线

  • ELF属于“连续扩散语言模型”,区别于直接在token空间做扩散的“离散派”。
  • 训练时,离散token先被编码为连续embedding,再加噪;模型在连续空间中去噪(MSE损失),最后一步用交叉熵损失预测token。
  • 推理时从高斯噪声出发,在连续空间执行Flow Matching(采用x-prediction),最后一步通过可学习的unembedding矩阵解码为离散token。
  • 采用classifier-free guidance(CFG)技术,以self-conditioning为条件信号。

性能对比

  • 在OpenWebText生成任务中,ELF仅用32步采样即达生成困惑度24;而主流离散扩散模型通常需要1024步才能接近这一水平。
  • 训练token仅45B,同级别对手普遍为500B+;采样步数少一个数量级,训练数据少一个数量级,效果更好。
  • 在WMT14机器翻译和XSum文本摘要等条件生成任务上,ELF稳定超越现有扩散语言模型,并压制部分自回归baseline。

核心突破

论文指出,此前扩散语言模型进展集中在离散侧,因为“语言本身是离散的”。但ELF证明,连续路线之所以表现不佳,是因为未能“连续到底”——此前方法要么每步对齐词表,要么需要额外训练decoder。ELF将所有去噪留在连续空间,最后一步才离散化,第一次实现了“连续就是连续,离散就是离散”。

  • 共同一作胡珂雅(MIT EECS博士生,恺明在MIT的首批博士生之一)和Linlu Qiu(MIT博士生)。
  • 其他作者包括MIT本科生Hanhong Zhao(IPhO金牌)、清华姚班本科生陆伊炀、MIT博后黎天鸿(此前《Back to Basics》一作),以及MIT教授Jacob Andreas、Yoon Kim和何恺明本人。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。