来源：Techcrunch

编辑：David

让人像老照片变动画，是什么体验？

让动画能说出你想听的话，又是什么体验？

去年，一款名为My Heritage 应用程序一度轰动，它能将经典的家庭照片变成栩栩如生的动态肖像。就像下面这样：

今年，这个应用背后的技术更进一步。能将静态照片转换为逼真的视频，并且能够说出你想说的任何话。

开发这个技术的公司叫D-ID，这次推出的“会说话的活照片”可能看起来像过去几年已经声名狼藉的DeepFake，但背靠的基础技术实际上却大不相同，它的基本功能是不需要训练的。

D-ID最初亮相是在2018 年的TechCrunch Battlefield 上。近日在TechCrunchDisrupt 2021 上现场推出了新产品：会说话的活照片。

利用这项新技术可以产生很多新应用。比如生成一个可以表达各种情感的电视主播，可以为客户支持互动创建虚拟聊天机器人，可以开发用于专业培训课程, 还能搭建互动式对话视频广告亭等。

这款新产品的发布，让公司的应用程序一度冲上苹果 App Store 排行榜的榜首。

10分钟视频训练，生成会聊天的“活照片”

从技术角度来看，D-ID对让照片动起来的技术与最初的去识别方向相差并不远。实际上，公司创立初期的主要方向正是去识别。

D-ID 首席执行官兼联合创始人 Gil Perry对记者表示，公司选择新方向是因为，这类应用程序的潜在市场很大。

D-ID 首席执行官兼联合创始人 Gil Perry

Speaking Portraits 同时面向大小客户，任何人都可以从源图像生成全高清视频，还能录制的语音或输入文本。目前D-ID 正在推出支持英语、西班牙语和日语的产品，并计划在未来支持其他语言。

D-ID 目前提供了两种基础版本。

一种是使用单张静止图片制作的“单人像”，这种版本的头部是动画，其他部分是静止的。这个模式下只对照片中的现有背景有效。

另一种更高级的选项，需要先按照指导说明，提交所请求人物的 10 分钟的视频用于训练。这个高级模式能够适用于自定义、可交互的背景，并为人物的身体和手部提供一些预设动画选项。

下面就是第二种选项下生成的日文新闻播音员，是不是足以乱真？

Perry 这次在 Disrupt 现场的展示是根据他小时候的静态照片创建的。这张照片被映射到由一个人偶呈现的面部表情上，同时发出声音，让现在和年轻时候的Perry互动。

看看下面这两个人的表情有多像：

如何防止出现下一个Deepfake

一张照片就能生成有声视频，这可能听起来有点吓人。

过去几年，关于Deepfake生成假视频引发的道德和法律上的争议，已经出现了太多。业内也一直在努力，试图成功分辨AI生成的逼真的假视频。

对此，Perry表示，D-ID在“努力确保这项技术被用在好的方向，而不是坏的方向”，

为了实现这一目标，他们将在 10 月底与合作伙伴一起发布关于”透明度和同意书” 的承诺。目的是确保“用户不会对看到的内容感到困惑，且相关人员会表示同意。”

虽然 D-ID 希望在其使用条款和公众立场方面对滥用此类技术做出保证，但 Perry 表示，单靠他一家公司，是很难做到这一点的。他呼吁生态系统中的其他各方都应该联手，努力避免这类技术的滥用。

参考资料：

https://techcrunch.com/2021/09/23/d-id-launches-speaking-portrait-a-way-to-turn-photos-into-custom-photo-realistic-videos/?guccounter=1