DDPM 的反向过程是马尔可夫的（Markovian），即只依赖于。而 DDIM 将其推广为一个非马尔可夫过程，使得同时依赖于和我们对的预测。

DDPM 的基础

我们从 DDPM 的两个关键公式出发：

前向加噪过程 (Fixed): 我们可以从一步到位得到：
$q(x_t | x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t} x_0, (1 - \bar{\alpha}_t) I)$
其中且。

这等价于：，其中。
反向去噪过程 (Learned): DDPM 训练一个神经网络来预测中的噪声。

DDPM 的采样公式是通过计算后验并用替换得到的：
$x_{t-1} = \underbrace{\frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}} \epsilon_\theta(x_t, t) \right)}_{\text{预测的均值 } \tilde{\mu}_t(x_t, \hat{x}_0)} + \underbrace{\sigma_t z}_{\text{随机噪声}}$
其中，通常设为或。

这个采样步骤是随机的 (Stochastic)，因为每一步都加入了新的高斯噪声。

DDIM 的核心思想

DDPM 必须严格遵循马尔可夫链，一步一步逆转。训练时用了 1000 步加噪，生成时就得跑 1000 步去噪。DDIM的目标则是：能不能不用 1000 步，而是 50 步甚至 10 步就生成图片。

**DDPM 的逻辑：从到，必须加入一个新的随机噪声。这意味着每次生成的路径都是随机的。

DDIM 的逻辑：只要保证边缘分布是高斯分布（和 DDPM 一样），中间怎么走的其实无所谓。于是，DDIM 构造了一个特殊的“非马尔可夫”前向过程，在这个过程中，如果我们把方差设为 0，那么从到就变成了一个确定性的映射。

推导 DDIM 公式

步骤 1：从预测

根据公式，我们可以反解出：

$x_0 = \frac{1}{\sqrt{\bar{\alpha}_t}} (x_t - \sqrt{1 - \bar{\alpha}_t} \epsilon)$

在采样阶段，我们不知道真实的，但我们有模型预测的。我们可以用它来估计：

$\hat{x}_0 = \frac{1}{\sqrt{\bar{\alpha}_t}} (x_t - \sqrt{1 - \bar{\alpha}_t} \epsilon_\theta(x_t, t))$

这一步为我们提供了从指向最终干净图像的”方向”。

步骤 2：定义的“数据”和“噪声”分量

根据扩散模型的定义，无论我们怎么采样，生成的必须在统计上符合以下分布（给定时）：

$q(x_{t-1}|x_0) = \mathcal{N}(\sqrt{\bar{\alpha}_{t-1}} x_0, (1 - \bar{\alpha}_{t-1})\mathbf{I})$

翻译成代数表达式，则意味着必须等于：

$x_{t-1} = \underbrace{\sqrt{\bar{\alpha}_{t-1}} x_0}_{\text{确定性均值}} + \underbrace{\sqrt{1 - \bar{\alpha}_{t-1}} \times (\text{noise})}_{\text{方差必须为 } 1 - \bar{\alpha}_{t-1}}$

所以，我们的总方差预算是。

DDIM 的想法是：尽量复用里已有的噪声，而不是使用一个全新的随机噪声。

所以，DDIM 把这个“总噪声项”拆成了两部分：

已知的噪声：（在里观测到的噪声）。
未知的随机噪声：（一个全新的高斯白噪声， )。

使用待定系数法，假设“总噪声项”是这两者的线性组合。我们可以设两个系数和：

$\text{总噪声项} = A \cdot \epsilon_\theta(x_t, t) + B \cdot z$

把这个组合代入方差公式。因为（近似为标准正态分布）和（标准正态分布）是相互独立的，根据方差的可加性：

$\text{Var}(\text{总噪声项}) = A^2 \cdot \text{Var}(\epsilon_\theta) + B^2 \cdot \text{Var}(z)$ $\text{Var}(\text{总噪声项}) = A^2 \cdot 1 + B^2 \cdot 1 = A^2 + B^2$

又因为总方差预算是。

所以我们可以得到方程：

$A^2 + B^2 = 1 - \bar{\alpha}_{t-1}$

现在我们有两个未知数 , ，但只有一个方程。这意味着这个方程有无限种解法。

为了确定系数，DDIM 引入了一个超参数来控制随机性。它直接定义：

$B = \sigma_t$

这意味着我们把“随机噪声”的方差直接指定为。

既然，代入方程，我们解出：

$A^2 = 1 - \bar{\alpha}_{t-1} - \sigma_t^2$ $A = \sqrt{1 - \bar{\alpha}_{t-1} - \sigma_t^2}$

将解出来的系数和拼回到原来的式子里：

均值部分：
噪声部分：
- 系数：
- 系数：

于是就得到了 DDIM 的公式：

$x_{t-1} = \underbrace{\sqrt{\bar{\alpha}_{t-1}} \cdot \hat{x}_0}_{\text{指向 $\hat{x}_0$}} + \underbrace{\sqrt{1 - \bar{\alpha}_{t-1} - \sigma_t^2} \cdot \epsilon_\theta(x_t, t)}_{\text{指向 $x_t$ 的方向}} + \underbrace{\sigma_t z}_{\text{可控的随机噪声 $z$}}$

步骤 3：设定

DDIM并不需要关心前向过程是怎么走的，只需要保证边缘分布对就行，所以我们设置。此时，”随机噪声”项消失，”噪声方向分量”的系数变为。

公式变为：

$x_{t-1} = \sqrt{\bar{\alpha}_{t-1}} \cdot \hat{x}_0 + \sqrt{1 - \bar{\alpha}_{t-1}} \cdot \epsilon_\theta(x_t, t)$

这个公式十分直观：是由“预测的原始数据 ”与“预测的噪声 ”按照一定的线性比组合而成的。

步骤 4：代入

现在，我们将步骤 1 中的表达式代入到步骤 3 的公式中：

$x_{t-1} = \sqrt{\bar{\alpha}_{t-1}} \left( \frac{1}{\sqrt{\bar{\alpha}_t}} (x_t - \sqrt{1 - \bar{\alpha}_t} \epsilon_\theta(x_t, t)) \right) + \sqrt{1 - \bar{\alpha}_{t-1}} \cdot \epsilon_\theta(x_t, t)$

为了便于计算，我们把项和项合并：

的系数:
的系数:

整理后，我们就得到了 DDIM 的确定性采样公式：

$x_{t-1} = \frac{\sqrt{\bar{\alpha}_{t-1}}}{\sqrt{\bar{\alpha}_t}} x_t + \left( \sqrt{1 - \bar{\alpha}_{t-1}} - \sqrt{\frac{\bar{\alpha}_{t-1}(1 - \bar{\alpha}_t)}{\bar{\alpha}_t}} \right) \epsilon_\theta(x_t, t)$

这就是 DDIM 的核心公式。给定，的值是完全确定的。

总结

DDPM:
DDIM:

DDIM 的推导本质上是将 DDPM 的随机马尔可夫过程，泛化为了一个包含确定性非马尔可夫过程的家族。这个家族由控制。DDIM 利用的确定性路径，实现了更快的采样速度和语义上一致的图像编辑。