挡不住了!扩散模型只用文字就能PS照片了

来源:机器之心
本文约2500字,建议阅读8分钟
甲方:「我想让这只小狗坐下。」AI:安排!







,其中 T 是给定目标文本的 token 数,d 是 token 嵌入维数。然后,研究者对生成扩散模型 f_θ的参数进行冻结,并利用去噪扩散目标(denoising diffusion objective)优化目标文本嵌入 e_tgt
是 x 的一个噪声版本,θ为预训练扩散模型权值。这样使得文本嵌入尽可能地匹配输入图像。此过程运行步骤相对较少,从而保持接近最初的目标文本嵌入,获得优化嵌入 e_opt。
,得到
然后,作者使用微调模型,以
为条件,应用基础生成扩散过程。这会产生一个低分辨率的编辑图像,然后使用微调辅助模型对目标文本进行超分辨率处理。这个生成过程输出最终的高分辨率编辑图像
。



评论
