「离散的」扩散语言模型

动机

在 AR 取得成功的同时，仍需考虑 AR 带来的局限：

AR 的生成用时是的
AR 的 left to right 限制了生成的顺序，可能限制了建模能力（例如逆向回答）
生成了就 fix 住了，没法走回头路

因此 dllm 的动机是多方面的：

并行解码 / 规定解码次数，加速生成
给模型更自由的生成顺序选择空间，不对生成顺序做假设，追求更好的生成效果
填空一样的可控的生成
生成中随时修正

还有一个意外之喜：

dllm 更会吃数据，数据有限的情况下，dllm 的拟合能力更强

概览

Diffusion LLM 一般分为两种：

连续的 diffusion（真正意义上的扩散）
- 某种程度上跟 Vector Quantised 的过程差不多，受到量化误差的严重影响
离散的 diffusion（将连续空间上的扩散改为离散空间中的状态转移），又有两种路线：
1. 用随机的 token 表示噪声，效果一般
2. MDLM（mask diffusion language model）用 [MASK] 表示噪声
  
  绝对的主流，唯一经过大规模验证的路线

CleanShot 2025-12-07 at 14.17.03@2x

CleanShot 2025-12-07 at 17.07.13@2x

解码阶段，每一个 step 中，进行 unmask 和 remask：

如果 unmask 的 token 没被 remask，那么生成成功
一般不对之前生成成功的进行 remask

例如生成长度为，要求步完成生成，对于第步，计算当前步需要生成几个 token（大部分都是）

常用的 remask 的策略：

随机 remask
基于 confidence（保留 top-k），常用的 confidence：
- 概率 p
- top-1 p 和 top-2 p 的 margin
- 负熵
基于 confidence（保留超过阈值的生成）

最近的进展

旗舰级别模型

Gemini Diffusion
Mercury（inception）
Seed Diffusion
盘古 Diffusion（7B）
RND-1（radical numerics，30BA3B）
SDAR（上海 AI lab）

学术界常用模型

LLaDA，人大，蚂蚁（相当于 LLaMA 的地位）

CleanShot 2025-12-07 at 17.38.20@2x

Scalability of LLaDA：

CleanShot 2025-12-07 at 17.38.29@2x

Diffusion Language Models are Super Data Learners 也认为扩散语言模型在数据稀缺时表现优于自回归模型

逆向建模能力：

CleanShot 2025-12-07 at 17.39.59@2x

LLaDA 后面还有一系列工作，例如拓展到多模态的 LLaDA-V，更先进的 LLaDA1.5、LLaDA2…

dream，香港大学（相当于 Qwen 的地位）

前置工作是 DiffuLLaMA，将现成的 AR 模型转为 MDLM，dream 基于 Qwen 2.5

如果第 i 个 token 是 [MASK]，那把第 i-1 个 token forward 的 logits 拿来解码

CleanShot 2025-12-07 at 17.56.09@2x

灵活机制

Seed Diffusion（字节）

是一个非常复杂的工业级别的工作，此处介绍其有关灵活机制的部分：

阶段一，基于掩码的扩散训练：此阶段采用标准的掩码填充任务，通过动态噪声调度将部分代码 tokens 替换为 [MASK] 标记。模型在此阶段学习代码的局部上下文和模式（如规律、结构、特征分布等）补全能力。

MASK 阶段训练会带来“伪相关性依赖”（spurious correlations），即模型会相信非 MASK 的 token 为正确的 token，为了缓解这一情况我们引入了阶段二的训练过程。阶段二，基于编辑的扩散训练：为促使模型评估全局代码的合理性，此阶段引入基于编辑距离约束的插入/删除操作来构造噪声。这种扰动强制模型重新审视并修正所有 tokens（包括未被直接操作的部分），从而避免对未污染上下文的“伪相关性依赖”。

第一阶段是课程学习

第二阶段让 [MASK] 和已生成 token 变成平权的，都可能被 remask