Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference
论文的核心贡献
- 提出 Latent Consistency Models (LCMs): 论文不在像素空间训练一致性模型,而是使用 Stable Diffusion 的预训练自编码器,在压缩后的 latent space 中学习 consistency mapping。这样可以避开高分辨率像素空间的巨大计算量,让一致性模型服务于 512x512、768x768 等高分辨率文生图场景,而不是停留在低分辨率像素生成。
- 提出 one-stage guided consistency distillation: 作者把 classifier-free guidance 写入 augmented probability flow ODE,让学生 LCM 直接学习带 guidance 的 ODE 轨迹端点。这样避免了为支持 CFG 而先训练无引导学生、再做额外引导蒸馏的复杂两阶段流程。
- 引入 Skipping-Step 蒸馏: 训练时不只约束相邻时间步的一致性,而是让相隔
k步的两个轨迹点映射到同一个干净端点。对 Stable Diffusion 这类长时间步调度来说,相邻点差异太小,损失信号弱;跳步拉大状态差距,使一致性训练更有效。 - 提出 Latent Consistency Fine-tuning (LCF): 对定制数据集,论文提出直接微调预训练 LCM,而不是先微调一个教师扩散模型再重新蒸馏。这降低了定制风格或小众数据场景下获得少步推理模型的训练成本。
- 少步推理效果为论文报告结论: 论文报告 LCM 在 LAION-Aesthetics 子集上,在 1-4 step 区间优于多种基线,并称其达到 few-step text-to-image generation 的 state-of-the-art 表现。这里未独立复核所有数据集、指标定义、采样协议和分辨率条件,因此该类强结论应标注为 paper-reported,而不是外部可比 leaderboard 结论。
复杂 Pipeline 深度解析

图中元素对照解读
- 图中顶部标题“Algorithm 1 Latent Consistency Distillation (LCD)”: 对应论文中的 LCD 训练算法;它在 pipeline 中的作用是界定下面所有伪代码都服务于 guided consistency distillation,而不是推理阶段采样器。
- 图中未用颜色区分整体模块,而是用标签/公式区分;蓝色公式和变量: 对应论文中的关键操作、超参数和训练信号;它在 pipeline 中的作用是把可调的 ODE solver、noise schedule、guidance scale、skipping interval、encoder 和 loss 目标突出出来。
- 图中上方“Input:”后的参数列表: 对应论文中的数据集
D、初始模型参数theta、学习率eta、ODE solverPsi、距离度量d、EMA 率mu等训练输入;它在 pipeline 中的作用是定义 LCD 蒸馏一次训练循环所需的外部配置。 - 图中蓝色“Encoding training data into latent space: Dz = ...”行: 对应论文中的编码器
E与 latent 数据集构造;它在 pipeline 中的作用是先把图像文本对(x, c)转成潜变量文本对(z, c),让训练发生在 Stable Diffusion 的 latent space。 - 图中左侧“theta^- <- theta”初始化行: 对应论文中的 EMA target model 初始化;它在 pipeline 中的作用是让目标网络先复制学生网络参数,随后作为一致性匹配的稳定参照。
- 图中左侧“repeat ... until convergence”框架: 对应论文中的迭代训练循环;它在 pipeline 中的作用是反复采样 latent、时间步和 guidance scale,直到 LCD 参数收敛。
- 图中循环第一行“Sample (z,c) ~ Dz, n ~ U[1,N-k] and omega ~ [w_min,w_max]”: 对应论文中的样本、跳步起点和 guidance scale 采样;它在 pipeline 中的作用是为每次蒸馏选择一条带条件和引导强度的训练轨迹。
- 图中循环第二行“Sample z_{t_{n+k}} ~ N(...)”: 对应论文中的前向加噪 latent 状态;它在 pipeline 中的作用是从干净 latent
z构造远端 noisy point,作为学生模型需要直接映射到干净端点的输入。 - 图中中部蓝色长公式“zhat_{t_n}^{Psi,omega} <- ...”: 对应论文中的 guided ODE solver 一步跳转;它在 pipeline 中的作用是用教师扩散模型和 classifier-free guidance 从
t_{n+k}估计较近时间t_n的轨迹锚点。 - 图中下方 loss、参数更新和 EMA 更新三行: 对应论文中的 consistency distillation loss、学生参数更新
theta <- theta - eta nabla_theta L和目标参数theta^-的 EMA;它在 pipeline 中的作用是让远端 noisy latent 与近端 ODE 锚点经过两个网络后对齐到同一端点预测。
Algorithm 1 展示的是 one-stage guided consistency distillation 的训练数据流:训练一个学生 LCM,使同一条 augmented PF-ODE 轨迹上相隔 k 步的两个 noisy latent 状态都映射到同一个干净 latent 端点。
1. 潜空间编码与训练样本构造
- 输入: 数据集中的图文对
(x, c)。 - 操作: 用预训练编码器
E把图像x编码为 latentz = E(x),得到 latent 数据集D_z = {(z, c)}。 - 输出: 干净 latent 与文本条件
(z, c)。 - 作用: 把高分辨率图像生成问题转移到 Stable Diffusion 已验证有效的潜空间中,降低训练和推理成本。
2. 随机采样训练状态
- 输入: latent 样本
(z, c)、噪声调度、最大时间步N、跳步间隔k、guidance scale 范围。 - 操作: 采样时间索引
n ~ U[1, N-k],采样 guidance scalew ~ [w_min, w_max],并在t_{n+k}对干净 latent 加噪。 - 输出: 带噪 latent
z_{t_{n+k}}、条件c、guidance scalew。 - 作用: 为学生模型提供不同噪声强度和不同引导强度下的训练轨迹点。
3. 教师 ODE 求解器生成近端轨迹点
- 输入:
z_{t_{n+k}}、时间区间t_{n+k} -> t_n、文本条件c、空条件emptyset、guidance scalew。 - 操作: 使用预训练教师 diffusion model 和 ODE solver
Psi估计带 CFG 的 augmented PF-ODE 轨迹,得到z_hat_{t_n}^{Psi,w}。 - 输出: 更接近干净端点的轨迹锚点
z_hat_{t_n}^{Psi,w}。 - 作用: 把教师模型的反向扩散知识压缩为一段短 ODE 轨迹,为一致性蒸馏提供目标关系。
4. 一致性匹配
- 输入: 远端 noisy latent
z_{t_{n+k}}和近端估计z_hat_{t_n}^{Psi,w}。 - 操作: 当前学生模型
f_theta预测远端点的干净端点,EMA 目标模型f_{theta^-}预测近端点的干净端点,二者通过距离度量d(...)对齐。 - 输出: consistency distillation loss。
- 作用: 强制同一条 ODE 轨迹上的不同时间点共享同一个终点预测,这是 LCM 能够少步甚至一步采样的核心约束。
5. 参数更新与 EMA 稳定目标
- 输入: 一致性损失。
- 操作: 更新学生参数
theta,并用 EMA 更新目标参数theta^-。 - 输出: 逐步收敛的 LCM。
- 作用: EMA 目标模型提供更稳定的对齐对象,降低自蒸馏训练中的震荡。
这篇论文的核心价值在于,它跳出了 Latent Diffusion Models 依赖大量迭代反向采样的旧范式,把 Consistency Models 的“轨迹上一致映射到同一干净端点”思想搬到 Stable Diffusion 的潜空间中。LCM 的目标不是改进每一步采样器,而是把预训练、有 classifier-free guidance 的扩散模型蒸馏成一个能在 1-4 步内直接给出高质量潜变量预测的模型,从而缓解高分辨率文生图推理慢的问题。
图注:论文没有真实 pipeline / framework / architecture 图;上图是 Algorithm 1 的伪代码裁剪,仅作为“非 pipeline 图/辅助视觉证据”来定位 LCD 训练流程中的输入、采样、ODE 求解、一致性损失和 EMA 更新。
这篇论文没有一张真正的 pipeline / framework / architecture 图。Figure 1、2、5、6、7、8 是生成结果展示,Figure 3、4 是量化曲线或消融图;方法流程主要由公式和伪代码描述。最接近方法总览的视觉证据是 Algorithm 1: Latent Consistency Distillation (LCD),位于 PDF 第 7 页;它是 closest_overview pseudocode,不是 pipeline figure。
关键术语
- Latent Consistency Model: 在 latent space 中学习 consistency function 的模型。它的功能是把 noisy latent 直接映射到同一轨迹对应的干净 latent 端点,动机是用少步推理替代长链式去噪。
- Augmented PF-ODE: 把 classifier-free guidance 合入 probability flow ODE 后得到的确定性反向轨迹。它让蒸馏目标天然包含文本条件与 guidance scale,不需要额外的后处理式引导阶段。
- Skipping-Step: 在蒸馏损失中跨越
k个时间步做一致性约束。它解决相邻步状态差别过小、训练信号弱的问题,是论文加速 LCD 收敛的重要技巧。 - Latent Consistency Fine-tuning: 在已有 LCM 上针对新数据继续训练的方案。它服务于定制数据集,目标是避免为每个定制场景重新训练并蒸馏一个完整教师扩散模型。
视觉证据结论
本文没有可接受的真实 pipeline / framework / architecture figure。最终视觉证据采用 figures/paper_page_007_closest_overview_algorithm1_accepted.png 作为 closest_overview pseudocode,用来说明 Algorithm 1 的训练流程;它不应被标注为 pipeline figure。