纸片人「活」了！Meta AI新作：只需几分钟，手绘小人有了灵魂-技术圈

新智元报道

编辑：小咸鱼好困

【新智元导读】想让画中的「纸片人」有生命，Meta AI来搞定！昨日，Meta AI宣布了一种独创性方法，只需几分钟，就能动画化儿童手绘的角色，效果拔群。

快看，「纸片人」居然自己跳出来了！

小猫学会了hiphop。

小蜜蜂还会做wave。

火柴人竟然会打跆拳道。

糖果人还能空中飞踢。

这些卡通动画都是用孩子们的简笔画生成的，不过，作者可是一个AI！

AI动画工具在儿童绘画上翻车？

孩子们富有想象力和创造性的简笔画，有的时候能带给人一些不一样的思考。

不过，虽然家长或老师很容易就能看出孩子的画想展示什么，但人工智能却很难完成这项任务。

为什么呢？

这是因为孩子们的绘画通常比较超脱常规，比如，人物的脚并不能支撑身子，或者人物的双臂位于身体的同一侧。

这样一来，AI系统有时候就无法识别出图像和绘画中的人物。

不过，研究人员已经有了一些眉目。

昨日，Meta AI宣布了一种独创性方法，只需几分钟，就能自动生成儿童手绘人物或类人角色（即具有双臂、两条腿等的角色）的动画，而且生成的动画还能做到栩栩如生。

只需将孩子的手绘上传给Meta AI，就可以看到它们变成会跳舞的角色，十分逼真。

手绘变动画四步走

许多AI工具和技术都是为了处理真实的人类图像而设计的，但儿童绘画增加了人物特征的多样性和不可预测性，这使得识别手绘人物变得更加复杂。

儿童绘画中的「人」有许多不同的形式、颜色、大小和比例，在身体对称性、形态等方面几乎没有相似之处。

于是，Meta AI通过四个步骤来应对这一挑战。

通过物体检测识别人形

制作儿童人物动画的第一步是将人物与背景和图片中的其他类型的角色区分开来。

Meta AI采用基于卷积神经网络的目标检测模型Mask R-CNN来提取儿童绘画中的人物。

虽然Mask R-CNN已经在最大的分割数据集上进行过预训练，但是这些数据集都是由真实世界物体的照片组成的，不包含手绘图。

因此，研究人员又将模型在大约1000张手绘图上进行了微调。

经过微调过程后，模型就能够很好地检测出测试数据集中的人物。

不过，虽然现有的目标检测技术在区分儿童绘图上的人物时非常有效，但是产生的分割mask不够精确，无法用于动画。

为了解决这个问题，我们改为使用从目标检测器获得的边界框，并应用一系列形态学操作和图像处理步骤来获得mask。

使用角色mask从场景中提升人形

从绘图中识别并提取人形后，下一步就是通过mask将主体与背景分开。

理论上，该步骤完成后，mask掉的部分应该只含有人形的部分，没有任何背景。

但是，如果手绘图中的人物的手、脚、身体等部位在外观上过于不符合常规时，Mask R-CNN预测的mask往往无法准确地捕捉整个图形。

比如下图那个倒三角的小人，其中，黄色三角形代表身体，一条横杠代表手臂。

Mask R-CNN的结果显然非常粗糙，不是「砍掉」了手臂，就是加粗了大腿。

为此，Meta的研究人员开发了一种经典的基于图像处理的方法，对这些形状各异的身体部件更加稳健。

研究人员先用预测的人形边界框来裁剪图像，然后，应用自适应阈值处理和形态学操作，从框的边缘进行泛填充，并假设mask是未被泛填充触及的最大多边形。

虽然这种方法可以精确提取提取适合于动画的mask，但是当背景杂乱无章或者纸张上有褶皱、破损或阴影时，就不好使了。

通过「装配」为动画做准备

孩子们画的人物有各种各样的身体形状，这些都远远超出了AI所见过的传统人的头部、手臂、腿部和躯干的形状。

举个例子，孩子画的「火柴人」没有躯干，胳膊和腿直接连在头上。

因此，研究人员需要一种能够处理这类形态「变异」的全新方法。

Meta使用专为人体姿势检测而训练的模型AlphaPose来识别人物上的关键点，这些关键点可以用作臀部、肩膀、肘部、膝盖、手腕和脚踝的识别。

由于AlphaPose是在真人的图像上训练的，所以要想让它能检测儿童绘画中的姿势，必须对它进行重新训练，以处理儿童绘画中千奇百怪的姿势。

为此，Meta的研究人员先内部收集了一波儿童绘画的数据。

然后，研究人员利用在这个初始数据集上训练的姿势检测器创建了一个内部工具，并允许父母上传他们孩子的画作，而研究人员则可以利用上传的画进行额外的训练。

随着数据越来越多，模型也得到反复地训练，最终达到了一个较高的准确度。

三维运动捕捉制作2D人物动画

一旦有了mask和联合预测，也就有了制作动画所需的一切。

Meta首先使用提取的mask生成一个网格，用原始图形对其进行纹理化。

使用预测的关节位置，研究人员为角色创建一个骨架，通过旋转骨骼和使用新的关节位置来生成各种姿势。

在制作动画之前，先从绘图中创建一个需要操作的角色。

然后，通过将一帧运动捕捉数据投影到2D平面上并更改角色姿态。从前面（顶行）、侧面（中间行）和扭曲的视角（底部）投射运动捕捉数据都可以。

最后，再让角色产生一系列连续的姿势，就可以创建一个动画了。

Meta AI可以根据关节预测的可信度来选择不同的运动：在手臂和腿都被正确预测的情况下，动画可以无缝地产生。

但是如果躯干没有出现在绘图中，它的关节置信度值将会很低，这时，这只AI将不得不放弃任务，要求用户纠正预测，或者宣布动画「做不了」。

用AI制作更复杂的动画

AI已经成为富有「创造力」的强大工具，能够赋予艺术家力量，激发新的表达形式。Meta的动画工具能鼓励人们去尝试绘画，并把他们带向更多的方向。

也许有一天，AI可以绘制出一幅复杂的图画，然后利用多个的角色相互作用以及背景中的元素，立即制作出一部详细的动画。

有了增强现实眼镜，这些动画人物甚至可以在现实世界中变得栩栩如生，与孩子们一起跳舞或交谈。

可能，AI的想象力就像人类的想象力一样，是无限的。

参考资料：

https://ai.facebook.com/blog/using-ai-to-bring-childrens-drawings-to-life/