阿里开源新型图像个性化框架MS-Diffusion，无需微调一键参考多个主题-技术圈

↑ 点击蓝字关注极市平台

作者丨王谢睿、付思铭、黄启涵、何旺贵、姜浩

编辑丨极市平台

极市导读

用户通过少量主题参考图，无需微调即可一键生成与多种文本概念结合的新图片。该项目已开源。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

图像个性化是当今的热门研究主题之一，支持用户提供少量主题参考图，让模型学习到给定主题的概念，并和各种文本概念结合，自由创作出各种各样的新图片。然而现有图像个性化方法大都基于DreamBooth框架，需要对每个特定的主题进行微调，带来了不小的训练开销；Zero-shot的个性化框架如IP-Adapter，尽管支持无微调的个性化，其图像和文本的保真度较低，且不支持多个给定主题的组合。那么个性化方法能不能在高保度的前提下，能够无需微调地参考单个或多个给定主题呢？

项目主页：https://ms-diffusion.github.io/

GitHub地址：https://github.com/MS-Diffusion/MS-Diffusion

HuggingFace地址：https://huggingface.co/doge1516/MS-Diffusion

论文地址：https://arxiv.org/abs/2406.07209

针对这些问题，阿里联合浙大提出了新型图像个性化框架MS-Diffusion，在满足了上面提到的功能之外，效果也是十分惊人：

不论是单个主题还是多个主题，MS-Diffusion都可以在满足图像和文本条件控制的情况下，生成高质量的结果。尤其在多物体生成中，MS-Diffusion支持动物、物体和穿着等多种类型的组合，且没有出现物体之间互相影响的情况。要知道这些生成都是不需要推理时微调的，也就意味着用户可以像使用Stable Diffusion一样方便地使用MS-Diffusion。

与此同时，MS-Diffusion还具有较高的功能性和可扩展性。它支持显示的layout控制，用户可以让不同的主题生成在指定的区域。它还支持和ControlNet结合，在完成个性化任务的同时引入深度图、边缘图、姿态等一系列条件的控制：

技术原理

MS-Diffusion的模型架构比较简洁，在原始Stable Diffusion的基础上，它为图像条件的注入设计了一条通路。图像经过预训练的Encoder后，通过Grounding Resampler映射到Stable Diffusion的跨注意力条件空间中，这个过程每张输入的参考图像彼此独立。接着类似于IP-Adapter，MS-Diffusion也为图像条件设计了独立于文本条件的跨注意力结构，从而有效地将其作用到扩散模型的生成过程。

MS-Diffusion的核心黑科技在于，它引入了layout也就是位置信息的辅助。负责映射图像embedding的Grounding Resampler是一个类似于Q-former的结构，MS-Diffusion用图像的描述短语和位置box来初始化原本随机的可学习query，相当于把额外的语义信息和位置信息与图像embedding做了一个整合，这对细节保真度的增强十分有意义。此外，MS-Diffusion利用multi-subject cross-attention将特定主题在跨注意力层的作用区域限定在了特定的区域，这对于多主题个性化生成十分关键，它不仅避免了不同主题之间的互相干扰，还把无关的区域（如背景）留给文本条件进行主导，这也是MS-Diffusion能在保证主题细节的同时拥有着显著高的文本保真度的主要原因。

作者还在论文提到，MS-Diffusion的效果一定程度上还来自于对大规模训练数据的精细化处理。为了获取多主题的训练数据，MS-Diffusion对单张图像的标题进行实体提取，再使用Grounding检测模型和SAM把多个主题从单张图像分离出来。另外，相较于IP-Adapter使用图文对作为训练数据，MS-Diffusion从视频里抽两帧，分别作为reference和ground truth，改善了“自己参考自己”所带来的“复制粘贴”问题。两帧中的多个物体还会经过一个额外的匹配过程，从而得到一个较精细的对应关系，并在训练时得到充分利用。

实验结果

MS-Diffusion在论文中与接近10种已开源的个性化方法做了定量比较。无论是图像保真度DINO，还是文本保真度CLIP-T，MS-Diffusion都取得了更优秀的性能。作者还在论文中特别指出，相较于其他方法，MS-Diffusion更倾向于关注物体本身的细节特征，这导致MS-Diffusion在粗粒度图像保真度CLIP-I上未占据绝对的优势。当然，这也和现有个性化方法容易过拟合到参考图背景上的问题有关。

同时，MS-Diffusion在论文中还提供了大量的定性结果，感兴趣请查看具体论文。在显著提升个性化性能的同时，MS-Diffusion引入的位置信息不仅解决了多主题个性化时可能遇到的问题，还让模型个性化过程的控制能力显著增强。在当今用户普遍选择低自由度Inpainting模型时，MS-Diffusion为高自由度的个性化创作带来新的可能性。目前模型已开源，大家可以前往尝试。

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜ICCV2023论文解读｜极市直播

极视角动态：欢迎高校师生申报极视角2023年教育部产学合作协同育人项目｜新视野+智慧脑，「无人机+AI」成为道路智能巡检好帮手！

技术综述：四万字详解Neural ODE：用神经网络去刻画非离散的状态变化｜transformer的细节到底是怎么样的？Transformer 连环18问！

点击阅读原文进入CV社区

收获更多技术干货