温故知新 | VAE 模型推导与总结-技术圈

来源：知乎—胖西西文仅分享，侵删

https://zhuanlan.zhihu.com/p/434394556

此总结首次完成于2021年4月25日，今日再次遇到vae模型推导问题，翻出一看，豁然开朗，故想分享于知乎社区，与大家共同分享，如有错误或不同见解请多多批评指正与交流。

摘要

VAE 模型 loss 的详细推导过程，变分自编码器的理解。

模型与说明

1.1 VAE模型基本网络结构

变分自编码器 (VAE) 由编码器和解码器两个部分组成。特征 x 输入编码器 $p_{\theta}(z|x)$ 生成编码特征 z，z 输入解码器 $p_{\theta}(z|x)$ 生成重构的 ; 通过生成角度来理解，该网络又可以分成推理网络和生成网络两部分。

1.2 $p_{\theta}(z|x)$ 与 $p(z)$ 的理解

$p_{\theta}(z|x)$ 是编码器/推理网络， $p_{\theta}(z|x)$ 该分布是真实的、复杂的，也是我们想去逼近的；而 $q(z)$ 是我们自己定的，用来逼近或者约束 $p_{\theta}(z|x)$ 的一个分布， $q(z)$ 是简单的，可主观决定的。

1.3 说明

变分自编码器所谓变分，指的是该模型存在泛函 $q(z)$ ,解决该泛函问题需要采用变分法，也就是寻找一个函数/参数 $q(z)$ 。

公式推导

首先需要明确VAE模型的目的就是为了使得似然函数 $log(p(x))$ 最大。

2.1 使得似然函数 $log(p(x))$ 最大,为什么转化成使得 $ELBO$ (变分下界)最大？

由贝叶斯定理：

公式1变形有:

公式2左右对 $q(z)$ 取 $ln$ 有：

变形有,其中 $q(z)$ 为任一分布

公式3两端对 $q(z)$ 求期望:

将公式4期望展开有:

由kl散度定义, $KL(P||Q) = \int{P\ln{\frac{P}{Q}}}$ 有:

令 $ELBO=E_{q(z)}[\ln{\frac{p(x,z)}{q(z)}}]$ ，并且由定义知道 $KL(q(z||q(z|x))\geq 0$ 有:

当且仅当 $q(z) = q(z|x)$ 时, $lnp(x) = ELBO$ ,否则， $\ln{p(x)}\geq ELBO$ ,将 $\ln{p(x)}$ 视为一个以 $q(z)$ 为参数的泛函有：

改变 $q(z)$ 并不能影响 $\ln(p(x))$ 的大小，而且 $\ln(p(x))$ 大于 $ELBO$ ，那么欲似然 $\ln(p(x))$ 更大，可从 $ELBO$ 下手，当 $ELBO$ 越大的情况下，似然 $\ln(p(x))$ 就会更大

所以可以来最大化 $ELBO$ 使得似然最大，使用神经网络的时候要注意，对 $-ELBO$ 进行优化，优化目标使得 $-ELBO$ 最小即可

2.2 对 $ELBO$ 再推导

因为对于 $q(z)$ ， $x$ 与 $z$ 独立，所以为了与encoder $q_(z|x)$ 接近，故将 $q(z)$ ,修改为 $q_(z|x)$ ,有：

设重构的x服从于高斯分布( $\mu,\sigma^{2}$ ),则有

设 $q(z|x)$ 服从于多元高斯分布 $(\mu,\sigma^2)$ ,另 $p(z)$ （认为设定的）服从于 $(0,1)$ 的分布，有(15)式：

$(\mu,\sigma^2)$ 二阶矩为 $\mu^2+\sigma^2$ ，所以有：

根据重构项和KL散度项的约束，我们可以得出（19）式

!!!!注意， $ELBO$ 我们想让他越大越好，但在神经网络优化中，我们对 $ELBO$ 先取负，转化成- $ELBO$ 再优化，此时，- $ELBO$ 越小越好

总结

根据以往经验，容易犯错误的地方有，使用神经网络时候，一定要对ELBO先取负再优化！

很久之前发布的文件与代码

https://gitee.com/sulei_ustb/vae-model

猜您喜欢：

戳我，查看GAN的系列专辑~！

一顿午饭外卖，成为CV视觉的前沿弄潮儿！

超110篇！CVPR 2021最全GAN论文汇总梳理！

超100篇！CVPR 2020最全GAN论文梳理汇总！

拆解组新的GAN：解耦表征MixNMatch

StarGAN第2版：多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》