变分自编码器(VAE)原理
VAE 的核心思想与概率模型传统的自编码器 (AE) 学习一个确定性的映射:。而 VAE 引入了概率框架,将数据生成过程建模为: 潜变量 (Latent Variable) : 从一个简单的先验分布 中采样,通常是标准正态分布 。 数据 : 从潜变量 的条件分布 中采样。 VAE 的目标是学习参数 (解码器/生成器参数),使得数据的边际似然 最大化。 p_{\theta}(x) = \int p_{\theta}(x|z) p(z) dz要直接最大化 ,我们需要计算上述积分。由于 (解码器)和 (先验)通常是复杂的神经网络模型,这个积分在连续空间上是不可解析计算的。所以我们引入变分推断来进行计算。 变分推断与证据下界 (ELBO)为了解决边际似然不可计算的问题,我们引入一个变分分布(Variational Distribution) ,它由另一个神经网络(编码器/推断网络)参数化,并用于近似真实的后验分布 。 根据概率论的贝叶斯定理,我们可以得到真实的后验分布 : p_{\theta}(z|x) = \frac{p_{\theta}(x|z) p(z)}{p_{\t...
DDIM原理
DDPM 的反向过程是马尔可夫的(Markovian),即 只依赖于 。而 DDIM 将其推广为一个非马尔可夫过程,使得 同时依赖于 和我们对 的预测 。 DDPM 的基础我们从 DDPM 的两个关键公式出发: 前向加噪过程 (Fixed): 我们可以从 一步到位得到 : q(x_t | x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t} x_0, (1 - \bar{\alpha}_t) I)其中 且 。 这等价于:,其中 。 反向去噪过程 (Learned): DDPM 训练一个神经网络 来预测 中的噪声 。 DDPM 的采样公式是通过计算后验 并用 替换 得到的: x_{t-1} = \underbrace{\frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}} \epsilon_\theta(x_t, t) \right)}_{\text{预测的均值 } \tilde{\mu}_t(x_t, \hat...
DDPM原理
扩散模型的本质:我们一点点往图片里加噪声,让它慢慢“消失”;然后训练一个模型,让它学会如何让噪声重新变回图像。这就是 DDPM(Denoising Diffusion Probabilistic Models)。 直觉理解 想象一张清晰的照片,我们往里逐渐加入高斯噪声。加到最后,它就成了一团随机点——几乎看不出原图。 现在问题来了: 如果我们能训练出一个网络,学会从这团噪声一步步复原出清晰的图像,那么这个模型就能“生成”新的图片了。 这就是 DDPM 的基本思路。它有两个阶段: 前向扩散(Forward Process):往图片里加噪声。 反向扩散(Reverse Process):学会去噪声,重建图片。 前向扩散每个时间步,我们都往图像中加一点噪声: x_t = \sqrt{1 - \beta_t}\,x_{t-1} + \sqrt{\beta_t}\,\epsilon_{t-1},\quad \epsilon_{t-1}\sim \mathcal{N}(0, I) 控制这一步加多少噪声(一般随时间增大) 是高斯噪声 通过重参数化,有完整的正向转...
