PeRFlow: Piecewise Rectified Flow as Universal Plug-and-Play Accelerator

codex_agy_batch_20260704_2235 / perflow · paper

这篇论文的关键价值在于，它把扩散模型加速从“端到端重构整条生成轨迹”的困难模式，推进到“分治式局部拉直概率流”的模式。PeRFlow 不再试图一次性学习从纯噪声到图像的长距离映射，而是把 ODE 采样过程切成多个短时间窗口，在每个窗口内做 reflow，从而用分段直线近似原本弯曲的概率流。论文报告称，这种设计能在少步生成中保持较好的视觉质量，并让加速能力以权重残差的形式迁移到同源预训练模型生态中的其他工作流。

论文的核心贡献

提出基于分治策略的 Piecewise Reflow： 论文将完整的 ODE 采样轨迹切分为多个短时间窗口，并在每个窗口内独立执行 reflow 来拉直局部轨迹。短窗口降低了终点模拟的时间和数值误差，使训练可以直接从真实图像加噪后的边缘分布出发，而不是先用教师模型生成完整合成数据集。相对 InstaFlow 这类长轨迹 reflow 方法，它减少了合成数据制备成本和由长 ODE 积分累积误差带来的质量上限。
设计从扩散噪声预测到流速度场的参数化映射： 扩散模型通常使用 $\epsilon$-prediction，而 PeRFlow 需要学习 velocity field。作者推导了二者之间的对应关系，并设计了与 DDIM 更新形式兼容的参数化，使学生模型可以从预训练扩散模型继承已有知识。这个设计降低了从头训练流模型的难度，也避免了完全依赖对抗训练带来的不稳定性。
把加速能力做成通用 plug-and-play 权重残差： 论文观察到训练后学生模型与原始预训练模型之间的权重差 $\Delta W=\theta-\phi$ 可以作为加速插件，叠加到同源底座微调出的模型和流程上。论文报告它可迁移到 customized SD models、ControlNets、多视角 3D 生成等工作流，从而缓解“每个下游流程都要重新蒸馏加速器”的问题。
提供 CFG-sync 与 CFG-fixed 两种训练/推理权衡： PeRFlow 针对 classifier-free guidance 设计了不同处理方式。CFG-sync 倾向保留原模型多样性，在推理时再调节 guidance；CFG-fixed 则把特定 guidance 强度固化进目标轨迹。这个设计让方法可以在多样性和高 guidance 视觉质量之间按应用场景切换。

复杂 Pipeline 深度解析

图中元素对照解读

图中左侧蓝色标题 “Original Probability Flow”： 对应论文中的预训练扩散模型概率流 ODE；它在 pipeline 中的作用是提供被加速前的教师轨迹参照。
图中左侧深紫到绿色背景框： 对应论文中的连续概率流状态空间；它在 pipeline 中的作用是承载从噪声分布到数据分布的采样动力学。
图中左侧橙黄色弯曲轨迹和密集圆点： 对应原始 ODE solver 的多步采样路径；它在 pipeline 中的作用是说明长轨迹非线性强、需要较多步才能稳定推进。
图中三条红色水平虚线边界： 对应时间窗口端点 $t_k$、$t_{k-1}$ 以及相邻区间边界；它在 pipeline 中的作用是把完整采样区间切成若干局部 reflow 子问题。
图中左/右两侧的 $\pi_1$、$\pi_{0.5}$、$\pi_0$ 分布曲线： 对应不同时间处的边缘分布；它在 pipeline 中的作用是标示轨迹从底部噪声侧 $\pi_1$ 逐步移动到顶部数据侧 $\pi_0$。
图中间两支红色空心箭头 “Reflow”： 对应论文在每个时间窗口内执行的 reflow 训练；它在 pipeline 中的作用是把同一窗口内原本弯曲的教师轨迹监督成更直的学生速度场。
图中右侧红色标题 “Piecewise Reflowed Model”： 对应训练后的 PeRFlow 学生模型；它在 pipeline 中的作用是表示加速能力已经被写入分段 rectified flow。
图中右侧橙黄色折线/直线轨迹： 对应 PeRFlow 学到的 piecewise linear trajectories；它在 pipeline 中的作用是让推理时每个窗口可以用更少步跨越，从而形成 few-step sampling。
图中右侧红色 “Few-Step” 标签： 对应论文报告的少步生成目标；它在 pipeline 中的作用是强调加速来自局部轨迹拉直，而不是直接改变目标分布标签。

1. Time Window Partitioning（时间窗口划分）

输入： 完整采样时间区间 $[1,0]$。
操作： 将时间轴切分为 $K$ 个不重叠窗口 $[t_k,t_{k-1})$。
输出： 多个短时间子区间。
作用： 把纯噪声到图像的长距离、强非线性轨迹，拆成局部更容易用直线近似的短轨迹。

2. Starting Point Construction（真实数据加噪起点构造）

输入： 真实训练图像 $z_0$、时间点 $t_k$、随机高斯噪声 $\epsilon$。
操作： 按扩散过程边缘分布对真实图像加噪，得到 $z_{t_k}$。
输出： 当前窗口的起始状态 $z_{t_k}$。
作用： 避免先从纯噪声完整采样出合成图像作为训练数据。这样训练起点来自真实数据的边缘分布，减少了完整 ODE 轨迹模拟的成本和分布偏移。

3. Endpoint Solving（短窗口终点求解）

输入： 起点 $z_{t_k}$、短区间 $[t_k,t_{k-1})$、预训练教师模型对应的 ODE solver。
操作： 只在当前短窗口内求解教师 ODE，从 $t_k$ 积分到 $t_{k-1}$。
输出： 目标终点 $z_{t_{k-1}}$。
作用： 为学生模型提供局部监督目标。由于区间短，终点可以在训练过程中在线生成，数值误差也低于完整长轨迹求解。

4. Velocity Matching（速度场匹配与局部拉直）

输入： 起点 $z_{t_k}$、终点 $z_{t_{k-1}}$、窗口内中间状态 $z_t$、学生 PeRFlow 网络。
操作： 用起点到终点的线性插值构造目标速度，并用 MSE 训练学生网络预测该窗口内的速度场。
输出： 更新后的学生参数 $\theta$，以及每个窗口内更接近直线的采样动力学。
作用： 在推理时，每个窗口可以用很少的步数跨越；多个窗口串联后形成从噪声到图像的折线式快速采样路径。

核心方法图是 Figure 1: Our few-step generator PeRFlow is trained by a divide-and-conquer strategy，位于 PDF 物理页码第 3 页。它不是传统神经网络模块框图，而是一个概率流轨迹的概念性 pipeline：左侧面板展示原始概率流中的弯曲、多步轨迹，右侧面板展示 PeRFlow 经过分段 reflow 后得到的分段线性、少步轨迹，中间两处红色 “Reflow” 箭头表示在相邻时间窗口内分别做局部拉直。

关键术语解释

Piecewise Rectified Flow / Piecewise Reflow： 本文不是把整条噪声到图像路径一次性拉成一条直线，而是在多个时间窗口内分别拉直。它的设计动机是降低 reflow 的拟合难度，同时保留原始扩散模型概率流的局部结构。
Probability Flow ODE（PF-ODE）： 扩散模型可以通过对应的概率流 ODE 做确定性采样。PeRFlow 把这个 ODE 的采样轨迹作为需要加速的对象，而不是只学习噪声到图像的黑箱映射。
$\Delta W$（权重残差）： $\Delta W=\theta-\phi$ 表示训练后的 PeRFlow 学生模型与原始预训练扩散模型之间的参数差。论文将它视为携带“轨迹拉直能力”的插件，报告称它可以叠加到同源底座的下游模型或工作流中实现少步加速。
CFG-sync / CFG-fixed： 这两种策略处理 classifier-free guidance 与训练目标之间的关系。CFG-sync 更强调推理时保留 guidance 可调性；CFG-fixed 则将指定 guidance 强度纳入训练目标，适合追求特定高 guidance 效果的场景。

为什么 Figure 1 是核心图

Figure 1 直接把 PeRFlow 的核心因果链画出来：原始 probability flow 是弯曲、多步的；PeRFlow 把时间轴切成若干窗口；每个窗口内通过 reflow 把局部轨迹拉直；最终得到右侧的 piecewise linear trajectories，从而支持 few-step sampling。它串联了论文的主要贡献：短窗口让真实数据加噪起点和在线终点求解变得可行，局部速度匹配让少步生成成为可能，而保持预训练概率流结构则解释了论文报告的 plug-and-play 迁移能力。