Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation

codex_agy_batch_20260704_2235 / latent_adversarial_diffusion_distillation · paper

Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation

论文的核心贡献

潜空间对抗扩散蒸馏 LADD： 论文不再把学生输出解码到像素空间后计算判别器损失，而是在 latent 空间中完成学生生成、教师特征提取和对抗监督。这降低了高分辨率训练的显存和计算负担，解决了 ADD 在像素空间判别时需要昂贵 decoder 的瓶颈。
用生成式特征替代 DINOv2 判别式特征： LADD 将 real/fake latent 重新加噪后送入冻结的 teacher diffusion model，并抽取 attention block 后的 token 序列作为 discriminator head 的输入。这样判别器看到的是教师生成模型内部的多层语义/结构表征，而不是固定 DINOv2 的判别式视觉特征，避免了 518 x 518 分辨率限制，也更自然地支持多长宽比 latent token。
用合成数据简化蒸馏目标： 论文使用 teacher 模型以较强 CFG 生成的合成 latent 作为 real 样本，而不是依赖真实图像数据集。作者认为合成样本的文本对齐更稳定，因此可以去掉 ADD 中额外的 distillation loss，让训练目标更接近纯对抗蒸馏。
扩展到 SD3-Turbo 与编辑/修复任务： 论文将 LADD 应用于 8B 参数 Stable Diffusion 3，并展示文本到图像、图像编辑和 inpainting 场景。论文报告称 LADD 相比前作 ADD 训练更简单并带来更好的少步生成效果；这些 outperform/SOTA 类表述在本总结中均按“论文报告”处理。

复杂 Pipeline 深度解析

图中元素对照解读

图中上半部分标题 ADD 及其上下两条横向流程： 对应论文中的基线 ADD 蒸馏流程；它在 pipeline 中的作用是展示旧方法把学生路径和教师路径都接到像素空间损失与 DINOv2 对抗损失上。
图中左上和中左的浅蓝色斜边框 “Encode to Latents”： 对应论文中的像素到 latent 编码步骤；它在 pipeline 中的作用是把真实/教师图像样本变成扩散模型可处理的 latent 表示。
图中上半部分右侧两个浅蓝色斜边框 “Decode to Pixels” 与右侧海龟图像： 对应论文中的 latent 解码到像素空间步骤；它在 pipeline 中的作用是让 ADD 能在像素图像上计算 distillation loss，但也引入高分辨率解码开销。
图中上半部分橙色 “Student” 方框和浅蓝色 “Teacher” 方框： 对应论文中的快速学生模型与冻结教师模型；它在 pipeline 中的作用是产生 fake/real 两条输出路径，供后续蒸馏和对抗判断比较。
图中左下浅蓝色 “DINOv2” 方框、旁边橙色 “Discriminator Head” 小框和 “Adversarial Loss” 标签： 对应论文中的 ADD 判别特征与对抗训练信号；它在 pipeline 中的作用是用 DINOv2 特征上的判别器给学生提供真假反馈。
图中上半部分右侧 “Distillation Loss” 标签和连接两张海龟图的黑色线： 对应论文中的像素空间蒸馏损失；它在 pipeline 中的作用是约束学生解码图像接近教师解码图像。
图中下半部分标题 LADD 以及底部三个大括号标签 “Synthetic Data Generation with Teacher / Student Prediction / Projected GAN Loss on Teacher Features”： 对应论文提出的 LADD 三段式训练流程；它在 pipeline 中的作用是把生成 teacher real latent、学生预测 fake latent、教师特征对抗损失串成一个 latent-space 闭环。
图中下半部分左侧噪声块、浅蓝色 “Teacher” 方框和中间海龟 latent 图： 对应论文中的教师合成数据生成步骤；它在 pipeline 中的作用是由冻结教师从噪声生成可作为 real 样本的 latent，而不是从真实图像再编码。
图中下半部分中间橙色 “Student” 方框及其前后的彩色噪声/latent 图块： 对应论文中的学生少步预测步骤；它在 pipeline 中的作用是生成 fake latent，并接受来自右侧判别路径的训练反馈。
图中下半部分右侧浅蓝色 “Teacher” 方框、橙色 “Discriminator Head” 小框、黑色 real/fake 分叉和 “N x” 标记： 对应论文中的教师特征投影 GAN 损失；它在 pipeline 中的作用是让 real 与 fake latent 经教师特征抽取后由多个判别头判断，从而训练学生输出更接近教师分布。

Figure 3 的核心对比是：ADD 的对抗反馈发生在像素空间和 DINOv2 特征上，而 LADD 把整个博弈搬回 latent 空间，并让 teacher 同时承担“生成 real 样本”和“提取判别特征”两个角色。

这篇论文的关键价值在于，它把扩散模型的对抗蒸馏从“像素空间里的判别式特征监督”推进到“潜空间里的生成式特征监督”。相对 ADD 依赖固定 DINOv2 判别器、需要把 latent 解码回 RGB 像素空间的旧做法，LADD 直接复用预训练扩散教师模型的中间特征来做对抗反馈，因此更适合高分辨率、多长宽比和大模型蒸馏。论文报告称，基于 LADD 蒸馏 Stable Diffusion 3 后得到的 SD3-Turbo 可以用 4 个无 CFG 采样步生成高质量图像；该性能声明来自论文实验，未在本次流程中做跨协议可比性复验。

核心图：Figure 3, “Comparing ADD and LADD”。 物理 PDF 页码为第 5 页。该图上半部分展示 ADD，下半部分展示 LADD，是论文最适合作为方法说明的 framework/pipeline 图。

Step 1: Synthetic Data Generation with Teacher

输入： 文本 prompt 与初始噪声 latent。
操作： 冻结的 teacher 模型执行完整多步采样，生成高质量 latent 样本。
输出： 作为 discriminator 眼中 real 样本的 teacher latent。
作用： 提供对齐稳定的目标分布。因为 real 样本已经在 latent 空间中，训练不需要读取真实图像再编码，也不需要把 latent 解码到像素空间。

Step 2: Student Prediction

输入： 学生模型的噪声 latent、时间步和文本条件。
操作： student 用极少步数预测去噪后的 latent。
输出： 作为 fake 样本的 student latent。
作用： 这是被蒸馏的快速生成路径。训练目标是让 student 在更少 transformer/network evaluations 下接近 teacher 的生成分布。

Step 3: Teacher Feature Extraction

输入： teacher 生成的 real latent、student 生成的 fake latent，以及重新采样的噪声级别。
操作： 对 real/fake latent 重新加噪后送入冻结 teacher，但此处 teacher 不再作为采样器输出图像，而是输出 attention block 后的 token feature sequence。
输出： 多层、多尺度的 generative features。
作用： 这些特征成为对抗判别的基础。噪声级别越高，特征反馈越偏全局结构；噪声级别越低，反馈越偏局部细节，因此论文可以通过噪声采样分布调节 discriminator 的反馈侧重点。

Step 4: Projected GAN Loss on Teacher Features

输入： teacher features、噪声级别条件和 pooled CLIP 文本嵌入。
操作： 将 token sequence reshape 回二维空间布局，并用多个独立 discriminator heads 判断 real/fake。
输出： 用于更新 student 的 projected GAN loss。
作用： 迫使 student 输出在 teacher 的生成式特征空间中与 teacher 样本不可区分。相比 ADD，这一步不依赖 DINOv2，也不需要在像素空间判别。

关键术语

LADD： Latent Adversarial Diffusion Distillation，指在 latent 空间中进行 adversarial diffusion distillation 的完整框架。它的设计动机是消除像素空间判别带来的 decoder 开销和分辨率限制。
Generative Features： 从预训练扩散 teacher 中间层抽取的特征。它们不是为分类训练的判别式特征，而是生成模型在去噪过程中形成的结构/语义表征，用来给 discriminator heads 提供判断依据。
Noise-level specific feedback： LADD 在判别前重新加噪 latent，并用不同噪声级别控制反馈语义。高噪声更强调全局形状和布局，低噪声更强调纹理与细节。
Synthetic Data： 由 teacher 直接生成的训练目标 latent。论文使用它替代真实图像数据，主要是为了获得更稳定的图文对齐，并简化 ADD 中额外的蒸馏约束。

为什么 Figure 3 是核心

Figure 3 同时展示了旧方法 ADD 的复杂路径和新方法 LADD 的闭环路径：ADD 需要 encode/decode、DINOv2 特征和额外 distillation loss；LADD 则把 synthetic data generation、student prediction、teacher feature extraction 和 projected GAN loss 统一在 latent 空间中。它串联了论文的全部关键设计：高分辨率训练来自 latent-space closure，多长宽比支持来自 teacher token features，训练简化来自 synthetic data 和纯对抗目标。因此它是本论文最合适的 method/framework 图。