大家好，今天继续聊聊科技圈发生的那些事。

一、V-Express

V-Express 是一个在参考图像、音频和 V-Kps 图像序列的控制下生成一个会说话的头像视频的开源项目。

V-Express 能够从单张图像生成带有音频的肖像视频，通过平衡不同的控制信号（如音频、姿势和图像）来实现自然的嘴部和面部动作同步。例如，将一张静态照片转换成对话视频。

类似的项目我们也分享过很多了，不过，每个项目都有其出色之处。V-Express 研究的重点在于，对于一般的视频生成来说，控制信号的强度各异，如文本、音频、图像参考、姿势、深度图等。在这些信号中，较弱的条件（如音频信号）往往难以发挥作用，因为它们容易被较强的条件（如姿势和原始图像）干扰。这就直接导致了生成效果不佳。V-Express 通过一系列渐进的丢弃操作来平衡不同控制信号，很好的解决了这个问题。

这个项目的部署也是类似的。安装 Python 环境下所需依赖（项目主页中已列出），然后克隆项目到本地，就可以体验开发团队提供的demo了。

作者团队还提到，在会说话的人脸生成任务中，当目标视频与参考角色不是同一个人时，选择与参考人脸姿势更相似的目标视频将能获得更好的效果。此外，模型目前在英语上表现较好，其他语言尚未进行详细测试。

项目地址：

https://github.com/tencent-ailab/V-Express

二、automatic

这个项目的简介是，稳定扩散和其他基于扩散的生成图像模型的高级实现。不过从简来说，automatic 就是一个升级版的 Stable Diffusion。

相信 Stable Diffusion 大家已经很了解了，那么对于 automatic（也可以称作 SD.Next ），我们就来简单说说相对于原版 SD，做出了哪些升级。

SD.Next 支持 Diffusers 和 Original 两种主要后端：

Diffusers：基于Huggingface Diffusers实现，支持所有列出的模型，新安装默认使用此后端。

Original：基于LDM参考实现并由A1111显著扩展，兼容大多数现有功能和扩展，支持SD 1.x和SD 2.x模型，其他模型类型需要使用Diffusers后端。

SD.Next 支持非常多种类的模型。简单数了一下，大概是20-30种模型可供支持。而有关使用平台，SD.Next 支持nVidia GPU、AMD GPU、Intel Arc GPU、兼容DirectX的所有GPU、兼容OpenVINO的所有设备、Apple M1/M2、ONNX/Olive等。也就是说，只要你是一台正经设备，基本上都能跑通。另外，项目还设置了更好看的用户界面，支持主题切换。

那么，简单来说说项目的部署吧。项目文件中有一个非常详细的 Step by Step 安装教程，在这里我们简单进行一个概括。

安装 Git，根据自己的系统进行安装即可。

安装 Python 环境

从 GitHub 克隆项目，进入项目的目录

最后，运行适用于您操作系统的启动器来启动Web界面：

Windows: webui.bat --debug 或 .\webui.ps1 --debug

Linux: ./webui.sh --debug

Mac: ./webui.sh --debug

怎么样，是不是很简单？感兴趣的小伙伴，可以动手试试了！

项目地址：

https://github.com/vladmandic/automatic

最后，再来看看B站的新视频吧！

这一期的视频，分享了一个换脸项目 FaceFusion，我们将其制作成了一键启动懒人包，可以通过网盘下载，本地直接部署。

如果本地算力不足，可以使用云平台进行计算，我们也准备了一键镜像，GPU这边选择4090就可以跑了，性价比最高。

潞晨云：

https://cloud.luchentech.com

顺提一嘴，本期视频点赞过三万，我们将手把手教大家训练一个 DFM 模型，比起市面上免费的 DFM 模型来说，效果肯定是好上加好的！还请大家多多支持！

视频链接：

https://www.bilibili.com/video/BV1Nw4m1S7Q4/

好了，本期的内容就是这么多，我们下期再见！

·················END·················

又火一个惊艳的AI项目，已开源！

一、V-Express

二、automatic

推荐阅读