Phased Consistency Models

codex_agy_batch_20260704_2235 / phased_consistency_models · paper

这篇论文的关键价值在于，它跳出了传统 Latent Consistency Models (LCM) “将整个扩散 ODE 轨迹强行映射到单一终点”的旧范式。它通过将长轨迹“分段 (Phased)”并在特征层面引入对抗训练，解决了 LCM 在少步数生成时画面模糊、多步采样结果不一致，以及因蒸馏策略缺陷导致模型对负面提示词 (negative prompt) 脱敏的痛点，实现了极具稳定性的 1-16 步图文与视频极速生成。

论文的核心贡献

提出分段一致性蒸馏 (Phased Consistency Distillation)： 论文将连续的 ODE 积分轨迹切分为多个独立的子轨迹 (sub-trajectories)，要求模型只在当前子段内满足自我一致性。这极大地降低了端到端映射的拟合难度，消除了传统 LCM 全局累积的离散化误差，使得模型能够进行确定性的多步采样，而不会在改变推理步数时产生随机的画面跳变。
重构无 CFG 绑定的引导蒸馏 (Decoupled Guided Distillation)： 作者发现 LCM 控制力差的根源在于蒸馏时使用了“CFG 增强的 ODE 求解器”，这把 CFG 的条件干预效应永久地焙烤进了权重里。PCM 提出在蒸馏阶段移除这种强制绑定，使得模型在推理阶段能够像原生扩散模型一样，接受大范围的 CFG 数值调控，并且重新对负面提示词变得高度敏感，大幅提升了生成控制力。
引入对抗一致性损失 (Adversarial Consistency Loss)： 针对传统 L2 损失在 1-2 步极少步数下监督力度不足、导致画面过于平滑模糊的问题，论文在子轨迹的解点 (solution point) 之间引入了 GAN 风格的对抗损失。它不仅约束了点到点的数值距离，还强制预测结果去匹配真实数据的分布流形，从而在极速生成时挽救了原本丢失的极致纹理与细节。

Pipeline 深度解析

图中元素对照解读

图中顶部和底部两条标注 ODE trajectory 的横向时间轴： 对应论文中的 ODE 时间轨迹与 PCM 分段边界；它在 pipeline 中的作用是限定本次训练只处理从 $t_{n+k}$、$t_n$ 到 $s_m$ 附近的局部子轨迹，而不是一次拟合完整扩散路径。
图中最左侧真实图像与浅蓝色 Encoder 梯形： 对应论文中的训练样本编码过程；它在 pipeline 中的作用是把图像样本变成可加噪的潜变量输入，为后续一致性蒸馏提供起点。
图中左下虚线 Noising 箭头与绿色 $x_{t_{n+k}}$ 方块： 对应论文中的前向加噪状态；它在 pipeline 中的作用是生成学生分支和教师分支共享的带噪输入。
图中左上浅蓝色 ODE solver $\phi$ 模块和旁边的 “USE CFG ?” 标注： 对应论文中的预训练 ODE 求解器及可选 CFG 使用；它在 pipeline 中的作用是先从 $x_{t_{n+k}}$ 推进到绿色 $x_{t_n}^{\phi}$ 中间状态，同时强调 CFG 在这里不是固定必选项。
图中上方灰色 $f_{\theta^-}^{m}(x_{t_n},t_n)$ 模块，内部带雪花和 EMA 标记： 对应论文中的冻结/EMA 目标模型；它在 pipeline 中的作用是把 $x_{t_n}^{\phi}$ 映射为目标解点 $\hat{x}_{s_m}$，作为学生模型学习的局部目标。
图中下方浅橙色 $f_{\theta}^{m}(x_{t_{n+k}},t_{n+k})$ 模块，内部带火焰标记： 对应论文中的可训练 PCM 学生模型；它在 pipeline 中的作用是直接从 $x_{t_{n+k}}$ 预测 $\tilde{x}_{s_m}$，学习少步或一步跨越当前 phase 的映射。
图中间右侧灰色 $d(\hat{x}_{s_m},\tilde{x}_{s_m})$ 方块和两条灰色弯箭头： 对应论文中的一致性距离损失；它在 pipeline 中的作用是约束目标解点与学生预测解点在数值/特征空间中对齐。
图中绿色 $\hat{x}_s$、$\tilde{x}_s$ 方块及其 Noising 箭头： 对应论文中对目标解点和预测解点再次加噪后的判别器输入；它在 pipeline 中的作用是把两类解点放到同一判别条件下比较分布质量。
图中最右侧浅黄色 Discriminator 区域、蓝色网络块、多个 T/F 输出和 Conv/GN/GeLU 竖列： 对应论文中的对抗一致性判别器；它在 pipeline 中的作用是区分目标/预测样本并提供对抗训练信号，补充单纯距离损失对细节分布约束不足的问题。
图中未用多种颜色区分所有时间变量，而是用标签、箭头、绿色状态块、浅蓝/灰/橙模块和雪花/火焰图标区分角色： 对应论文中的 frozen teacher、trainable student、EMA update 与中间 latent 状态；它在 pipeline 中的作用是把“谁被冻结、谁被训练、哪些变量被比较”显式分开。

Step 1: 状态初始化与子轨迹分配

输入： 干净图像与对应的文本条件。
操作： 依据预设的时间边界 ($s_m, s_{m+1}$)，将总时间线切分。对图像注入噪声至同一子段内的某个时刻 $t_{n+k}$，得到带噪隐变量。
输出： 处于特定子轨迹中的带噪起点 $x_{t_{n+k}}$。
作用： 为一致性蒸馏提供局部的物理上下文，避免模型一上来就要做跨越极长时间跨度的高难度拟合任务。

Step 2: 目标解点估计 (Teacher 分支)

输入： 带噪隐变量 $x_{t_{n+k}}$。
操作： 数据在此兵分两路。目标分支首先用预训练的 ODE 求解器 $\phi$ 往回退一小步得到 $\hat{x}_{t_n}^\phi$ (图中带问号的 CFG 模块表明这里是否使用 CFG 是可选的，而 PCM 证明了关闭它更好)；接着将这个中间态送入经过动量更新的目标模型 (EMA Update，即 $f_{\theta^-}^m$) 中，预测出当前子轨迹的边界终点。
输出： 目标解点 (Target point) $\hat{x}_{s_m}$。
作用： 结合预训练大模型的 ODE 演算步骤，为学生网络提供一个准确的、符合物理规律的局部“伪真值”锚点。

Step 3: 当前解点预测 (Student 分支)

输入： 同样的带噪隐变量 $x_{t_{n+k}}$。
操作： 直接输入给当前正在训练的 PCM 学生模型 (Trainable，即 $f_\theta^m$)，要求它跳过 ODE 演算，一步到位预测出该子段的边界终点。
输出： 预测解点 (Predicted point) $\tilde{x}_{s_m}$。
作用： 这是加速推理的核心引擎，锻炼模型在特定相位内“一步跨越”的映射能力。

Step 4: 距离与分布的双重对抗优化

输入： 目标解点 $\hat{x}_{s_m}$ 和预测解点 $\tilde{x}_{s_m}$。
操作： 首先计算两者的距离损失 $d(\cdot, \cdot)$ 约束特征绝对对齐；随后，向这两个解点重新注入一定比例的噪声得到 $\tilde{x}_s$ 和 $\hat{x}_s$，将它们送入判别器 (Discriminator，由 Conv、GN 组等构成) 计算对抗一致性损失。
输出： 综合 Loss，反向传播更新学生模型参数。
作用： 距离损失保证了轨迹走向的物理正确性，而对抗损失则将被单步跳跃抹平的高频信息“拉”回了真实数据分布上，是保障单步出图不糊的关键机制。

图号与图名： Figure 4: Training paradigm of PCMs. PCM 的 pipeline 可以理解为“在一个被截断的子时间窗口内，让学生模型同时在数值距离和概率分布上追赶老师模型”。按照图中的数据流顺序，核心步骤可拆解如下：

关键术语解析

CFG-augmented ODE solver (CFG 增强的 ODE 求解器)： 在这篇论文中，它是作为一种“被批判的旧设计”出现的。传统 LCM 蒸馏时用它来强行计算带有 CFG 的引导轨迹。PCM 揭示了它的致命缺陷：它会稀释负面提示词的作用（例如提示词写了“不要黑狗”，却依然生成黑狗）。PCM 在蒸馏阶段选择性地抛弃这种做法，成功解放了模型的文本控制力。
Solution Point (解点)： 指代在某个时间截面 (例如子段边界 $s_m$) 上，常微分方程沿着真实数据流形还原出的特定状态。论文的根本动机，就是认为强迫模型一次性对齐整条长轨迹的最终解点极其困难且易导致误差积累，因而将其优雅地细化为了对齐各个“局部解点”。

总结

Figure 4 是理解 PCM 训练方式的核心视觉证据：图底部的 $s_m$、$s_{m+1}$ 等标签呈现了“分段 (Phased)”训练边界；ODE solver 框旁的 “USE CFG ?” 标出 CFG 在蒸馏求解环节中的可选性；右侧 Discriminator 模块则展示了论文如何在距离约束之外加入对抗信号。整体来看，这张图说明 PCM 并不是只改采样步数，而是在局部子轨迹、目标/学生模型对齐和判别器训练三处共同调整一致性蒸馏流程。