codex_agy_batch_20260704_2235 / latent_consistency_models · paper

Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference

论文的核心贡献

  • 提出 Latent Consistency Models (LCMs): 论文不在像素空间训练一致性模型,而是使用 Stable Diffusion 的预训练自编码器,在压缩后的 latent space 中学习 consistency mapping。这样可以避开高分辨率像素空间的巨大计算量,让一致性模型服务于 512x512、768x768 等高分辨率文生图场景,而不是停留在低分辨率像素生成。
  • 提出 one-stage guided consistency distillation: 作者把 classifier-free guidance 写入 augmented probability flow ODE,让学生 LCM 直接学习带 guidance 的 ODE 轨迹端点。这样避免了为支持 CFG 而先训练无引导学生、再做额外引导蒸馏的复杂两阶段流程。
  • 引入 Skipping-Step 蒸馏: 训练时不只约束相邻时间步的一致性,而是让相隔 k 步的两个轨迹点映射到同一个干净端点。对 Stable Diffusion 这类长时间步调度来说,相邻点差异太小,损失信号弱;跳步拉大状态差距,使一致性训练更有效。
  • 提出 Latent Consistency Fine-tuning (LCF): 对定制数据集,论文提出直接微调预训练 LCM,而不是先微调一个教师扩散模型再重新蒸馏。这降低了定制风格或小众数据场景下获得少步推理模型的训练成本。
  • 少步推理效果为论文报告结论: 论文报告 LCM 在 LAION-Aesthetics 子集上,在 1-4 step 区间优于多种基线,并称其达到 few-step text-to-image generation 的 state-of-the-art 表现。这里未独立复核所有数据集、指标定义、采样协议和分辨率条件,因此该类强结论应标注为 paper-reported,而不是外部可比 leaderboard 结论。

复杂 Pipeline 深度解析

Algorithm 1 Latent Consistency Distillation(非 pipeline 图/辅助视觉证据)
Algorithm 1 Latent Consistency Distillation(非 pipeline 图/辅助视觉证据)

图中元素对照解读

  • 图中顶部标题“Algorithm 1 Latent Consistency Distillation (LCD)”: 对应论文中的 LCD 训练算法;它在 pipeline 中的作用是界定下面所有伪代码都服务于 guided consistency distillation,而不是推理阶段采样器。
  • 图中未用颜色区分整体模块,而是用标签/公式区分;蓝色公式和变量: 对应论文中的关键操作、超参数和训练信号;它在 pipeline 中的作用是把可调的 ODE solver、noise schedule、guidance scale、skipping interval、encoder 和 loss 目标突出出来。
  • 图中上方“Input:”后的参数列表: 对应论文中的数据集 D、初始模型参数 theta、学习率 eta、ODE solver Psi、距离度量 d、EMA 率 mu 等训练输入;它在 pipeline 中的作用是定义 LCD 蒸馏一次训练循环所需的外部配置。
  • 图中蓝色“Encoding training data into latent space: Dz = ...”行: 对应论文中的编码器 E 与 latent 数据集构造;它在 pipeline 中的作用是先把图像文本对 (x, c) 转成潜变量文本对 (z, c),让训练发生在 Stable Diffusion 的 latent space。
  • 图中左侧“theta^- <- theta”初始化行: 对应论文中的 EMA target model 初始化;它在 pipeline 中的作用是让目标网络先复制学生网络参数,随后作为一致性匹配的稳定参照。
  • 图中左侧“repeat ... until convergence”框架: 对应论文中的迭代训练循环;它在 pipeline 中的作用是反复采样 latent、时间步和 guidance scale,直到 LCD 参数收敛。
  • 图中循环第一行“Sample (z,c) ~ Dz, n ~ U[1,N-k] and omega ~ [w_min,w_max]”: 对应论文中的样本、跳步起点和 guidance scale 采样;它在 pipeline 中的作用是为每次蒸馏选择一条带条件和引导强度的训练轨迹。
  • 图中循环第二行“Sample z_{t_{n+k}} ~ N(...)”: 对应论文中的前向加噪 latent 状态;它在 pipeline 中的作用是从干净 latent z 构造远端 noisy point,作为学生模型需要直接映射到干净端点的输入。
  • 图中中部蓝色长公式“zhat_{t_n}^{Psi,omega} <- ...”: 对应论文中的 guided ODE solver 一步跳转;它在 pipeline 中的作用是用教师扩散模型和 classifier-free guidance 从 t_{n+k} 估计较近时间 t_n 的轨迹锚点。
  • 图中下方 loss、参数更新和 EMA 更新三行: 对应论文中的 consistency distillation loss、学生参数更新 theta <- theta - eta nabla_theta L 和目标参数 theta^- 的 EMA;它在 pipeline 中的作用是让远端 noisy latent 与近端 ODE 锚点经过两个网络后对齐到同一端点预测。

Algorithm 1 展示的是 one-stage guided consistency distillation 的训练数据流:训练一个学生 LCM,使同一条 augmented PF-ODE 轨迹上相隔 k 步的两个 noisy latent 状态都映射到同一个干净 latent 端点。

1. 潜空间编码与训练样本构造

  • 输入: 数据集中的图文对 (x, c)
  • 操作: 用预训练编码器 E 把图像 x 编码为 latent z = E(x),得到 latent 数据集 D_z = {(z, c)}
  • 输出: 干净 latent 与文本条件 (z, c)
  • 作用: 把高分辨率图像生成问题转移到 Stable Diffusion 已验证有效的潜空间中,降低训练和推理成本。

2. 随机采样训练状态

  • 输入: latent 样本 (z, c)、噪声调度、最大时间步 N、跳步间隔 k、guidance scale 范围。
  • 操作: 采样时间索引 n ~ U[1, N-k],采样 guidance scale w ~ [w_min, w_max],并在 t_{n+k} 对干净 latent 加噪。
  • 输出: 带噪 latent z_{t_{n+k}}、条件 c、guidance scale w
  • 作用: 为学生模型提供不同噪声强度和不同引导强度下的训练轨迹点。

3. 教师 ODE 求解器生成近端轨迹点

  • 输入: z_{t_{n+k}}、时间区间 t_{n+k} -> t_n、文本条件 c、空条件 emptyset、guidance scale w
  • 操作: 使用预训练教师 diffusion model 和 ODE solver Psi 估计带 CFG 的 augmented PF-ODE 轨迹,得到 z_hat_{t_n}^{Psi,w}
  • 输出: 更接近干净端点的轨迹锚点 z_hat_{t_n}^{Psi,w}
  • 作用: 把教师模型的反向扩散知识压缩为一段短 ODE 轨迹,为一致性蒸馏提供目标关系。

4. 一致性匹配

  • 输入: 远端 noisy latent z_{t_{n+k}} 和近端估计 z_hat_{t_n}^{Psi,w}
  • 操作: 当前学生模型 f_theta 预测远端点的干净端点,EMA 目标模型 f_{theta^-} 预测近端点的干净端点,二者通过距离度量 d(...) 对齐。
  • 输出: consistency distillation loss。
  • 作用: 强制同一条 ODE 轨迹上的不同时间点共享同一个终点预测,这是 LCM 能够少步甚至一步采样的核心约束。

5. 参数更新与 EMA 稳定目标

  • 输入: 一致性损失。
  • 操作: 更新学生参数 theta,并用 EMA 更新目标参数 theta^-
  • 输出: 逐步收敛的 LCM。
  • 作用: EMA 目标模型提供更稳定的对齐对象,降低自蒸馏训练中的震荡。

这篇论文的核心价值在于,它跳出了 Latent Diffusion Models 依赖大量迭代反向采样的旧范式,把 Consistency Models 的“轨迹上一致映射到同一干净端点”思想搬到 Stable Diffusion 的潜空间中。LCM 的目标不是改进每一步采样器,而是把预训练、有 classifier-free guidance 的扩散模型蒸馏成一个能在 1-4 步内直接给出高质量潜变量预测的模型,从而缓解高分辨率文生图推理慢的问题。

图注:论文没有真实 pipeline / framework / architecture 图;上图是 Algorithm 1 的伪代码裁剪,仅作为“非 pipeline 图/辅助视觉证据”来定位 LCD 训练流程中的输入、采样、ODE 求解、一致性损失和 EMA 更新。

这篇论文没有一张真正的 pipeline / framework / architecture 图。Figure 1、2、5、6、7、8 是生成结果展示,Figure 3、4 是量化曲线或消融图;方法流程主要由公式和伪代码描述。最接近方法总览的视觉证据是 Algorithm 1: Latent Consistency Distillation (LCD),位于 PDF 第 7 页;它是 closest_overview pseudocode,不是 pipeline figure。

关键术语

  • Latent Consistency Model: 在 latent space 中学习 consistency function 的模型。它的功能是把 noisy latent 直接映射到同一轨迹对应的干净 latent 端点,动机是用少步推理替代长链式去噪。
  • Augmented PF-ODE: 把 classifier-free guidance 合入 probability flow ODE 后得到的确定性反向轨迹。它让蒸馏目标天然包含文本条件与 guidance scale,不需要额外的后处理式引导阶段。
  • Skipping-Step: 在蒸馏损失中跨越 k 个时间步做一致性约束。它解决相邻步状态差别过小、训练信号弱的问题,是论文加速 LCD 收敛的重要技巧。
  • Latent Consistency Fine-tuning: 在已有 LCM 上针对新数据继续训练的方案。它服务于定制数据集,目标是避免为每个定制场景重新训练并蒸馏一个完整教师扩散模型。

视觉证据结论

本文没有可接受的真实 pipeline / framework / architecture figure。最终视觉证据采用 figures/paper_page_007_closest_overview_algorithm1_accepted.png 作为 closest_overview pseudocode,用来说明 Algorithm 1 的训练流程;它不应被标注为 pipeline figure。