小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上...
本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载
机器之心编辑部
最近,有一群来自小红书的 95 后神秘团队,自称 InstantX,搞了个大动作 —— 开源「InstantID」项目。 InstantID 凭借着高质量的图像生成能力,在开源界掀起了一股热潮:不仅获得了众多技术大佬的点赞,更是在 GitHub 热榜上迅速飙升,成为焦点。 这个「出片神器」,让用户只需上传一张照片,就能轻松定制出多种风格的 AI 写真。只需一张照片,整个过程无需训练 LoRA 模型,多风格 AI 写真即刻呈现!
- ID Embedding:团队利用预训练的面部识别模型代替 CLIP 来提取语义人脸特征,并使用可训练的投影层,将这些特征映射到文本特征空间,形成 Face Embedding,具有丰富的语义信息,包括如面部特征、表情、年龄等,为后续的图像生成提供了坚实的基础。
- Image Adapter:引入一个轻量级的适配模块,将提取的身份信息与文本提示结合起来。这个模块通过解耦的交叉注意力机制,使得图像和文本能够独立地影响生成过程,从而在保持身份信息的同时,允许用户对图像风格进行精细控制,实现「双赢」。
- IdentityNet:小红书提出了一个名为 IdentityNet 的网络,是 InstantID 的核心部分。它通过强语义条件(如面部特征的详细描述)和弱空间条件(如面部关键点的位置)来编码参考面部图像的复杂特征。在 IdentityNet 中,生成过程完全由 Face Embedding 引导,无需任何文本信息。仅更新新添加的模块,而预先训练的文本到图像模型保持冻结以确保灵活性。
- 论文地址:https://arxiv.org/abs/2401.07519
- InstantID 主页:https://instantid.github.io/
- Demo 尝鲜:https://huggingface.co/spaces/InstantX/InstantID
---END---
评论