Unified Latents: 扩散模型的框架下,令生成与编码相互配合
本文介绍 google deepmind 团队提出的 Unified Latents 架构,在扩散模型的架构下统一了生成和表示压缩,并且给出了优雅的信息界。
生成与编码的权衡
在生成模型设定中(详细见此文 ) ,首先我们有一个在高维空间中的分布
历史上, 变分自编码器(Variational Autoencoder, VAE)引入了一个潜变量
即:先从原始数据中压缩出潜变量
在这里,编码器
信息瓶颈
信息瓶颈描述了在编码过程中,如何在保留有用信息的同时压缩数据。具体来说,信息瓶颈试图找到一个潜变量
数学上,信息瓶颈可以通过以下优化问题来描述:
较小的
变分自编码器通过调控 KL 散度项
问题在于,变分自编码器中,我们无法显式地控制
Unified Latents 架构
首先,Unified Latents 架构使用了一个确定性的编码器
然后,对这个确定性的编码加噪得到带噪编码
接下来,使用两个独立的扩散模型,一个先验扩散模型(diffusion
prior)负责从加噪编码
好处是可以方便地表达信号和噪声的比例:
注:
损失函数推导 与 ELBO 重加权
对于扩散模型,文中使用了以下的损失:
逻辑是,首先最小化负对数似然展开成 ELBO。
在扩散模型的设定里,
但是不同于 VAE,扩散模型中的
根据 Girsanov 定理,路径空间上的 KL 散度可以被重写为一个时间积分:
而
然后由 SDE 的对应关系给出,
带入化简一下就可以得到文中使用的损失函数。
而这里只降噪到
而 reweight 就是在路径空间上对不同时间步的损失进行加权,根据 Jensen’s inequality 可以证明,重加权后的损失函数仍然是 ELBO 的上界。
TODO: 有时间写一个详细的推导过程。
双阶段训练
TODO.