Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference

codex_agy_batch_20260704_2235 / latent_consistency_models · paper

Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference

论文的核心贡献

提出 Latent Consistency Models (LCMs)： 论文不在像素空间训练一致性模型，而是使用 Stable Diffusion 的预训练自编码器，在压缩后的 latent space 中学习 consistency mapping。这样可以避开高分辨率像素空间的巨大计算量，让一致性模型服务于 512x512、768x768 等高分辨率文生图场景，而不是停留在低分辨率像素生成。
提出 one-stage guided consistency distillation： 作者把 classifier-free guidance 写入 augmented probability flow ODE，让学生 LCM 直接学习带 guidance 的 ODE 轨迹端点。这样避免了为支持 CFG 而先训练无引导学生、再做额外引导蒸馏的复杂两阶段流程。
引入 Skipping-Step 蒸馏： 训练时不只约束相邻时间步的一致性，而是让相隔 k 步的两个轨迹点映射到同一个干净端点。对 Stable Diffusion 这类长时间步调度来说，相邻点差异太小，损失信号弱；跳步拉大状态差距，使一致性训练更有效。
提出 Latent Consistency Fine-tuning (LCF)： 对定制数据集，论文提出直接微调预训练 LCM，而不是先微调一个教师扩散模型再重新蒸馏。这降低了定制风格或小众数据场景下获得少步推理模型的训练成本。
少步推理效果为论文报告结论： 论文报告 LCM 在 LAION-Aesthetics 子集上，在 1-4 step 区间优于多种基线，并称其达到 few-step text-to-image generation 的 state-of-the-art 表现。这里未独立复核所有数据集、指标定义、采样协议和分辨率条件，因此该类强结论应标注为 paper-reported，而不是外部可比 leaderboard 结论。

复杂 Pipeline 深度解析

Algorithm 1 Latent Consistency Distillation（非 pipeline 图/辅助视觉证据）

图中元素对照解读

图中顶部标题“Algorithm 1 Latent Consistency Distillation (LCD)”： 对应论文中的 LCD 训练算法；它在 pipeline 中的作用是界定下面所有伪代码都服务于 guided consistency distillation，而不是推理阶段采样器。
图中未用颜色区分整体模块，而是用标签/公式区分；蓝色公式和变量： 对应论文中的关键操作、超参数和训练信号；它在 pipeline 中的作用是把可调的 ODE solver、noise schedule、guidance scale、skipping interval、encoder 和 loss 目标突出出来。
图中上方“Input:”后的参数列表： 对应论文中的数据集 D、初始模型参数 theta、学习率 eta、ODE solver Psi、距离度量 d、EMA 率 mu 等训练输入；它在 pipeline 中的作用是定义 LCD 蒸馏一次训练循环所需的外部配置。
图中蓝色“Encoding training data into latent space: Dz = ...”行： 对应论文中的编码器 E 与 latent 数据集构造；它在 pipeline 中的作用是先把图像文本对 (x, c) 转成潜变量文本对 (z, c)，让训练发生在 Stable Diffusion 的 latent space。
图中左侧“theta^- <- theta”初始化行： 对应论文中的 EMA target model 初始化；它在 pipeline 中的作用是让目标网络先复制学生网络参数，随后作为一致性匹配的稳定参照。
图中左侧“repeat ... until convergence”框架： 对应论文中的迭代训练循环；它在 pipeline 中的作用是反复采样 latent、时间步和 guidance scale，直到 LCD 参数收敛。
图中循环第一行“Sample (z,c) ~ Dz, n ~ U[1,N-k] and omega ~ [w_min,w_max]”： 对应论文中的样本、跳步起点和 guidance scale 采样；它在 pipeline 中的作用是为每次蒸馏选择一条带条件和引导强度的训练轨迹。
图中循环第二行“Sample z_{t_{n+k}} ~ N(...)”： 对应论文中的前向加噪 latent 状态；它在 pipeline 中的作用是从干净 latent z 构造远端 noisy point，作为学生模型需要直接映射到干净端点的输入。
图中中部蓝色长公式“zhat_{t_n}^{Psi,omega} <- ...”： 对应论文中的 guided ODE solver 一步跳转；它在 pipeline 中的作用是用教师扩散模型和 classifier-free guidance 从 t_{n+k} 估计较近时间 t_n 的轨迹锚点。
图中下方 loss、参数更新和 EMA 更新三行： 对应论文中的 consistency distillation loss、学生参数更新 theta <- theta - eta nabla_theta L 和目标参数 theta^- 的 EMA；它在 pipeline 中的作用是让远端 noisy latent 与近端 ODE 锚点经过两个网络后对齐到同一端点预测。

Algorithm 1 展示的是 one-stage guided consistency distillation 的训练数据流：训练一个学生 LCM，使同一条 augmented PF-ODE 轨迹上相隔 k 步的两个 noisy latent 状态都映射到同一个干净 latent 端点。

1. 潜空间编码与训练样本构造

输入： 数据集中的图文对 (x, c)。
操作： 用预训练编码器 E 把图像 x 编码为 latent z = E(x)，得到 latent 数据集 D_z = {(z, c)}。
输出： 干净 latent 与文本条件 (z, c)。
作用： 把高分辨率图像生成问题转移到 Stable Diffusion 已验证有效的潜空间中，降低训练和推理成本。

2. 随机采样训练状态

输入： latent 样本 (z, c)、噪声调度、最大时间步 N、跳步间隔 k、guidance scale 范围。
操作： 采样时间索引 n ~ U[1, N-k]，采样 guidance scale w ~ [w_min, w_max]，并在 t_{n+k} 对干净 latent 加噪。
输出： 带噪 latent z_{t_{n+k}}、条件 c、guidance scale w。
作用： 为学生模型提供不同噪声强度和不同引导强度下的训练轨迹点。

3. 教师 ODE 求解器生成近端轨迹点

输入： z_{t_{n+k}}、时间区间 t_{n+k} -> t_n、文本条件 c、空条件 emptyset、guidance scale w。
操作： 使用预训练教师 diffusion model 和 ODE solver Psi 估计带 CFG 的 augmented PF-ODE 轨迹，得到 z_hat_{t_n}^{Psi,w}。
输出： 更接近干净端点的轨迹锚点 z_hat_{t_n}^{Psi,w}。
作用： 把教师模型的反向扩散知识压缩为一段短 ODE 轨迹，为一致性蒸馏提供目标关系。

4. 一致性匹配

输入： 远端 noisy latent z_{t_{n+k}} 和近端估计 z_hat_{t_n}^{Psi,w}。
操作： 当前学生模型 f_theta 预测远端点的干净端点，EMA 目标模型 f_{theta^-} 预测近端点的干净端点，二者通过距离度量 d(...) 对齐。
输出： consistency distillation loss。
作用： 强制同一条 ODE 轨迹上的不同时间点共享同一个终点预测，这是 LCM 能够少步甚至一步采样的核心约束。

5. 参数更新与 EMA 稳定目标

输入： 一致性损失。
操作： 更新学生参数 theta，并用 EMA 更新目标参数 theta^-。
输出： 逐步收敛的 LCM。
作用： EMA 目标模型提供更稳定的对齐对象，降低自蒸馏训练中的震荡。

这篇论文的核心价值在于，它跳出了 Latent Diffusion Models 依赖大量迭代反向采样的旧范式，把 Consistency Models 的“轨迹上一致映射到同一干净端点”思想搬到 Stable Diffusion 的潜空间中。LCM 的目标不是改进每一步采样器，而是把预训练、有 classifier-free guidance 的扩散模型蒸馏成一个能在 1-4 步内直接给出高质量潜变量预测的模型，从而缓解高分辨率文生图推理慢的问题。

图注：论文没有真实 pipeline / framework / architecture 图；上图是 Algorithm 1 的伪代码裁剪，仅作为“非 pipeline 图/辅助视觉证据”来定位 LCD 训练流程中的输入、采样、ODE 求解、一致性损失和 EMA 更新。

这篇论文没有一张真正的 pipeline / framework / architecture 图。Figure 1、2、5、6、7、8 是生成结果展示，Figure 3、4 是量化曲线或消融图；方法流程主要由公式和伪代码描述。最接近方法总览的视觉证据是 Algorithm 1: Latent Consistency Distillation (LCD)，位于 PDF 第 7 页；它是 closest_overview pseudocode，不是 pipeline figure。

关键术语

Latent Consistency Model： 在 latent space 中学习 consistency function 的模型。它的功能是把 noisy latent 直接映射到同一轨迹对应的干净 latent 端点，动机是用少步推理替代长链式去噪。
Augmented PF-ODE： 把 classifier-free guidance 合入 probability flow ODE 后得到的确定性反向轨迹。它让蒸馏目标天然包含文本条件与 guidance scale，不需要额外的后处理式引导阶段。
Skipping-Step： 在蒸馏损失中跨越 k 个时间步做一致性约束。它解决相邻步状态差别过小、训练信号弱的问题，是论文加速 LCD 收敛的重要技巧。
Latent Consistency Fine-tuning： 在已有 LCM 上针对新数据继续训练的方案。它服务于定制数据集，目标是避免为每个定制场景重新训练并蒸馏一个完整教师扩散模型。

视觉证据结论

本文没有可接受的真实 pipeline / framework / architecture figure。最终视觉证据采用 figures/paper_page_007_closest_overview_algorithm1_accepted.png 作为 closest_overview pseudocode，用来说明 Algorithm 1 的训练流程；它不应被标注为 pipeline figure。