ConsistentID：针对定制化人脸需求！中山大学提出多模态精细化生成方法！-技术圈

本文来源皓楠投稿自凹非寺量子位 QbitAI

只需上传一张照片，就能瞬间变换身份，获得高精度个人写真！

或是科幻电影中的超级英雄，或是穿越时空的复古角色……

李飞飞在家做饭的样子有了，还有让斯嘉丽一键带圣诞帽。

除此之外，杨幂+小兰两位人脸融合在一起会是什么样子？

中山大学、联想的研究团队推出了ConsistentID，可在细粒度多模态面部提示下，仅利用单张参考图像生成多样的肖像，且保持五官的一致性。

最终在人脸个性化任务处理上，相比腾讯的photomaker和小红书的instantID，在五官一致性保持上更具优势

只需单张照片就可快速保留五官细节

ConsistentID框架包括两个关键模块：多模态面部 ID 生成器和ID保存网络。

多模态面部提示生成器由两个基本组件组成：细粒度多模态特征提取器，专注于捕获详细的面部信息，以及用来学习面部ID特征的提取器。

另一方面，ID保存网络同时利用面部文本和视觉提示，通过面部注意力定位策略防止来自不同面部区域的 ID 信息混合。

这种方法确保了面部区域ID一致性的保存。

多模态面部提示生成器

首先在细粒度多模态特征提取器这一模块中，使用了包括文本嵌入、面部嵌入和面部编码器这三个关键组件。需要独立学习细粒度的面部视觉和文本嵌入，并将它们输入到设计的轻量级面部编码器中，以生成细粒度的多模态面部特征。

△用于生成细粒度多模态面部特征的面部编码器框架。

面部ID特征提取器。

除了细粒度面部特征的输入条件外，我们还将字符的整体 ID 信息注入到我们的 ConsistentID 中作为视觉提示。具体来说，将完整的人脸图像同时输入到两个编码器中进行视觉特征提取。在这两个编码器之后，使用由 IPA-FaceID-Plus 初始化的参数的轻量级投影模块来生成整个图像的人脸嵌入。

ID保存网络。通过引导面部特征的注意力与相应的面部区域对齐来保持局部 ID 特征的一致性。这种优化策略源于观察到传统的交叉注意力图倾向于同时关注整个图像，这对在面部区域生成期间保持 ID 特征提出了挑战。为了解决这个问题，我们在训练期间引入了面部分割掩码，以从面部区域的增强文本交叉注意模块中学习到的注意力分数。

除此之外，研究团队还引入了测量细粒度面部生成数据集 FGID，解决了现有数据集中用于捕获不同身份保留面部细节的局限性。

该数据集包括面部区域和整个面部的面部特征和描述，辅以一种新颖的细粒度身份一致性度量，建立了细粒度面部生成性能的综合评估框架。