Ginokto's blog

发表于2025-12-02|算法

基础模型概述自编码器 (Autoencoder, AE)原理： AE 旨在学习一个潜在表示（Latent Representation），使得输入可以通过被准确地重建出来。 x \xrightarrow{\text{Encoder}} z \xrightarrow{\text{Decoder}} \hat{x}目标：最小化重建误差（如均方误差 MSE）。 L_{\text{AE}} = ||x - \text{Decoder}(\text{Encoder}(x))||^2缺点：潜在空间没有结构约束。无法直接从潜在空间采样生成有意义的新数据，因为附近的区域可能对应无意义的重建。变分自编码器 (Variational Autoencoder, VAE)原理： VAE 将编码器视为一个学习输入潜在分布的过程，通常假设这个分布是高斯分布，由均值和标准差参数化。它通过对潜在空间施加约束，使其服从一个简单的先验分布（如标准正态分布），从而实现生成能力。目标：最大化证据下界（Evidence Lower Bound, ELBO）。 L_{\tex...

变分自编码器（VAE）原理

发表于2025-11-27|算法

VAE 的核心思想与概率模型传统的自编码器 (AE) 学习一个确定性的映射：。而 VAE 引入了概率框架，将数据生成过程建模为：潜变量 (Latent Variable) ：从一个简单的先验分布中采样，通常是标准正态分布。数据：从潜变量的条件分布中采样。 VAE 的目标是学习参数 (解码器/生成器参数)，使得数据的边际似然最大化。 p_{\theta}(x) = \int p_{\theta}(x|z) p(z) dz要直接最大化，我们需要计算上述积分。由于（解码器）和（先验）通常是复杂的神经网络模型，这个积分在连续空间上是不可解析计算的。所以我们引入变分推断来进行计算。变分推断与证据下界 (ELBO)为了解决边际似然不可计算的问题，我们引入一个变分分布（Variational Distribution），它由另一个神经网络（编码器/推断网络）参数化，并用于近似真实的后验分布。根据概率论的贝叶斯定理，我们可以得到真实的后验分布： p_{\theta}(z|x) = \frac{p_{\theta}(x|z) p(z)}{p_{\t...

DDIM原理

发表于2025-11-22|算法

DDPM 的反向过程是马尔可夫的（Markovian），即只依赖于。而 DDIM 将其推广为一个非马尔可夫过程，使得同时依赖于和我们对的预测。 DDPM 的基础我们从 DDPM 的两个关键公式出发：前向加噪过程 (Fixed): 我们可以从一步到位得到： q(x_t | x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t} x_0, (1 - \bar{\alpha}_t) I)其中且。这等价于：，其中。反向去噪过程 (Learned): DDPM 训练一个神经网络来预测中的噪声。 DDPM 的采样公式是通过计算后验并用替换得到的： x_{t-1} = \underbrace{\frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}} \epsilon_\theta(x_t, t) \right)}_{\text{预测的均值 } \tilde{\mu}_t(x_t, \hat...

DDPM原理

发表于2025-11-18|算法

扩散模型的本质：我们一点点往图片里加噪声，让它慢慢“消失”；然后训练一个模型，让它学会如何让噪声重新变回图像。这就是 DDPM（Denoising Diffusion Probabilistic Models）。直觉理解想象一张清晰的照片，我们往里逐渐加入高斯噪声。加到最后，它就成了一团随机点——几乎看不出原图。现在问题来了：如果我们能训练出一个网络，学会从这团噪声一步步复原出清晰的图像，那么这个模型就能“生成”新的图片了。这就是 DDPM 的基本思路。它有两个阶段：前向扩散（Forward Process）：往图片里加噪声。反向扩散（Reverse Process）：学会去噪声，重建图片。前向扩散每个时间步，我们都往图像中加一点噪声： x_t = \sqrt{1 - \beta_t}\,x_{t-1} + \sqrt{\beta_t}\,\epsilon_{t-1},\quad \epsilon_{t-1}\sim \mathcal{N}(0, I) 控制这一步加多少噪声（一般随时间增大）是高斯噪声通过重参数化，有完整的正向转...