Latent Diffusion Models高分辨率图像合成训练工具-技术圈

Latent Diffusion Models高分辨率图像合成训练工具

联合创作 · 2023-09-25 22:48

潜在扩散模型 (LDM) 是一项高分辨率图像合成训练工具，它在图像修复和各种任务（包括无条件图像生成、语义场景合成和超分辨率）上实现了高度竞争的性能，同时与基于像素的 DM 相比显着降低了计算要求。

通过将图像形成过程分解为去噪自动编码器的顺序应用，扩散模型 (DM) 在图像数据及其他数据上实现了最先进的合成结果。然而，由于这些扩散模型通常直接在像素空间中运行，强大的 DM 的优化通常会消耗数百个 GPU 天数，并且由于顺序评估，推理成本很高。为了在有限的计算资源上启用 DM 训练，同时保持它们的质量和灵活性，LDM 将模型应用在强大的预训练自编码器的潜在空间中。

在这种基础上训练扩散模型，首次允许在降低复杂性和保留细节之间达到近乎最佳的点，从而大大提高了视觉保真度。通过在模型架构中引入交叉注意力层，可将扩散模型转变为强大而灵活的生成器，用于一般条件输入（例如文本或边界框），并且以卷积方式进行高分辨率图像合成成为可能。

编辑分享