用Diffusion升级DragGAN，泛化更强生成质量更高

机器学习与生成对抗网络

共 3609字，需浏览 8分钟

·

2023-08-10 22:43

明敏发自凹非寺量子位 | 公众号 QbitAI

北大团队最新工作，用扩散模型也能实现拖拉拽P图！

点一点，就能让雪山长个儿：

或者让太阳升起：

这就是DragonDiffusion，由北京大学张健老师团队VILLA（Visual-Information Intelligent Learning LAB），依托北京大学深圳研究生院-兔展智能AIGC联合实验室，联合腾讯ARC Lab共同带来。

它可以被理解为DragGAN的变种。

DragGAN如今GitHub Star量已经超过3w，它的底层模型基于GAN（生成对抗网络）。

一直以来，GAN在泛化能力和生成图像质量上都有短板。

而这刚好是扩散模型（Diffusion Model）的长处。

所以张健老师团队就将DragGAN范式推广到了Diffusion模型上。

该成果发布时登上知乎热榜。

有人评价说，这解决了Stable Diffusion生成图片中部分残缺的问题，可以很好进行控制重绘。

让狮子在照片中转头

Dragon Diffusion能带来的效果还包括改变车头形状：

让沙发逐渐变长：

再或者是手动瘦脸：

也能替换照片中的物体，比如把甜甜圈放到另一张图片里：

或者是给狮子转转头：

该方法框架中包括两个分支，引导分支（guidance branch）和生成分支（generation branch）。

首先，待编辑图像通过Diffusion的逆过程，找到该图像在扩散隐空间中的表示，作为两个分支的输入。

其中，引导分支会对原图像进行重建，重建过程中将原图像中的信息注入下方的生成分支。

生成分支的作用是引导信息对原图像进行编辑，同时保持主要内容与原图一致。

根据扩散模型中间特征具有强对应关系，DragonDiffusion在每一个扩散迭补中，将两个分支的隐变量通过相同的UNet去噪器转换到特征域。

然后利用两个mask，和区域。标定拖动内容在原图像和编辑后图像中的位置，然后约束的内容出现在区域。

论文通过cosin距离来度量两个区域的相似度，并对相似度进行归一化：

除了约束编辑后的内容变化，还应该保持其他未编辑区域与原图的一致性。这里也同样通过对应区域的相似度进行约束。最终，总损失函数设计为：

在编辑信息的注入方面，论文通过score-based Diffusion将有条件的扩散过程视为一个联合的score function：

将编辑信号通过基于特征强对应关系的score function转化为梯度，对扩散过程中的隐变量进行更新。

为了兼顾语义和图形上的对齐，作者在这个引导策略的基础上引入了多尺度引导对齐设计。

此外，为了进一步保证编辑结果和原图的一致性，DragonDiffusion方法中设计了一种跨分支的自注意力机制。

具体做法是利用引导分支自注意力模块中的Key和Value替换生成分支自注意力模块中的Key和Value，以此来实现特征层面的参考信息注入。

最终，论文提出的方法，凭借其高效的设计，为生成的图像和真实图像提供了多种编辑模式。

这包括在图像中移动物体、调整物体大小、替换物体外观和图像内容拖动。

在该方法中，所有的内容编辑和保存信号都来自图像本身，无需任何微调或训练附加模块，这能简化编辑过程。

研究人员在实验中发现，神经网络第一层太浅，无法准确重建图像。但如果到第四层重建又会太深，效果同样很差。在第二/三层的效果最佳。

相较于其他方法，Dragon Diffusion的消除效果也表现更好。

来自北大张健团队等

该成果由北京大学张健团队、腾讯ARC Lab和北京大学深圳研究生院-兔展智能AIGC联合实验室共同带来。

张健老师团队曾主导开发T2I-Adapter，能够对扩散模型生成内容进行精准控制。

在GitHub上揽星超2k。

该技术已被Stable Diffusion官方使用，作为涂鸦生图工具Stable Doodle的核心控制技术。

兔展智能联手北大深研院建立的AIGC联合实验室，近期在图像编辑生成、法律AI产品等多个领域取得突破性技术成果。

就在几周前，北大-兔展AIGC联合实验室就推出了登上知乎热搜第一的的大语言模型产品ChatLaw，在全网带来千万曝光同时，也引发了一轮社会讨论。

联合实验室将聚焦以CV为核心的多模态大模型，在语言领域继续深挖ChatLaw背后的ChatKnowledge大模型，解决法律金融等垂直领域防幻觉，可私有化、数据安全问题。

据悉，实验室近期还会推出原创对标Stable Diffusion的大模型。

论文地址：
https://arxiv.org/abs/2307.02421

项目主页：
https://mc-e.github.io/project/DragonDiffusion/

关注公众号【机器学习与AI生成创作】，更多精彩等你来读

卧剿，6万字！30个方向130篇！CVPR 2023 最全 AIGC 论文！一口气读完

深入浅出stable diffusion：AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet，一种可控生成的AIGC绘画生成算法！

经典GAN不得不读：StyleGAN

戳我，查看GAN的系列专辑~！

一杯奶茶，成为AIGC+CV视觉的前沿弄潮儿！

最新最全100篇汇总！生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

ICCV 2021 | 35个主题GAN论文汇总

超110篇！CVPR 2021最全GAN论文梳理

超100篇！CVPR 2020最全GAN论文梳理

拆解组新的GAN：解耦表征MixNMatch

StarGAN第2版：多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云：独学而无友，则孤陋而寡闻

点击一杯奶茶，成为AIGC+CV视觉的前沿弄潮儿！，加入 AI生成创作与计算机视觉 知识星球！

浏览 269

点赞

收藏

分享

举报

评论

图片

表情

谷歌又放大招 Disco Diffusion！AI生成超高质量绘画！

AI算法与图像处理

【论文解读】训练更快，泛化更强的Dropout：Multi-Sample Dropout

机器学习初学者

提升Diffusion模型生成效果#FreeU

Mix Lab味知实验室

缓存之王Caffeine Cache，性能比Guava更强，命中率更高！

浪尖聊大数据

EA&UML日拱一卒用例泛化关系

面向对象思考

RubyCritic生成 Ruby 代码质量报告

RubyCritic 集成 Reek，Flay 和 Flog 这 3 个代码静态分析的工具，对你的R

RubyCritic生成 Ruby 代码质量报告

RubyCritic集成 Reek，Flay 和 Flog这3个代码静态分析的工具，对你的Ruby代码进行静态分析并生成代码质量报告。运行效果：您的项目概览，并且可以对代码打分(百分制)根据各自的坏味

Prawn用 Ruby 生成 PDF

Prawn是一个纯RubyPDF生成库，在试图保持简单和合理性能的同时，提供了许多强大的功能。功能：矢量绘图支持，包括直线，多边形，曲线，椭圆等。广泛的文本呈现支持，包括文本重排和有限的内联格式设置选

【收藏】制作艺术二维码，用 Stable Diffusion 就行！

神经网络中的泛化总结

程序员大白

点赞

收藏

分享

举报