职业危机？AIGC绘画还有哪些提升空间？-技术圈

高中的时候我很喜欢看一部叫《爆漫王》的热血动画，它讲述了两名初三学生为了实现“终有一天我们的漫画要出动画”的梦想，联手一起制作漫画的故事。为什么用“制作”一词？因为身为主人翁之一的真城最高擅长画画，另外一名主人翁高木秋人擅长写剧本，所以才有了他俩一起联手的故事。恰好这部动漫的作者也是两个人，他们是《死亡笔记》的作者小畑健和大场鸫，他俩分别负责绘画创作和写剧本。其实小时候我很想做个漫画家，可惜手残，所以看完这部动漫后我也很想找个懂绘画的人一起进军动漫界，但没有然后了。

去年“绘画”的火爆程度不用我讲大家都知道了，不过我是真没想到3月份出现Disco Diffusion后8月份突然来了一个Stable Diffusion，然后来了一个Dreambooth，这神速确实让我有点始料不及，不得不说开源就是好！

相信大家都会把AIGC绘画称为“抽盲盒”，因为生成图时会出现各种各种妖魔鬼怪的图像，例如三只手臂？1根手指上长着5根手指？去年11月份的时候我就想到了一个事情，AIGC绘画+各种人机交互技术会是什么样？

前几天发布的ControlNet相信圈内人士都知道，它可以用线稿和OpenPose技术实现图的高度还原，这项技术已经能让AIGC绘画基本摆脱“抽盲盒”的概念，以下是B站U主通过ControlNet实现的AI画稿。

视频：https://reurl.cc/Y86Gna

既然OpenPose也可以使用，那么有没有可以直接控制的OpenPose模型？当然有，一位日本小哥做了一个网站，它可以让模型摆不同的姿势，以及让镜头旋转到特定位置，生成的模型图片再导入Stable Diffusion WebUI使用。

工具：https://reurl.cc/lvdlMA

教程：https://reurl.cc/pLyoVb9b

OpenPose能不能再升级为其他更厉害的技术？当然可以。姿态识别技术除了OpenPose，还有Google的Mediapipe。Mediapipe除了可以检测躯体骨骼，还可以检测468个脸部关键点和42个手指关键点。如果ControlNet未来支持Mediapipe，它将为AIGC绘画带来更精准的人体画像生成。

姿态识别技术除了用于生成图像，还可以充当检测器把盲盒这个概念泯灭掉。举个例子，当图像生成的人体出现2个头、3只手、3条腿的情况，或者姿势过于不正常，机器应当把这张图片的生成终止并重新生成。从这个角度来看，YOLO技术也可以发挥物体检测器的作用。在未来，基于客观事实的合成器和检测器会越来越多，而它们由各种识别和追踪技术组成。

在去年11月份的时候，我还想到了一个AIGC的一个未来趋势：3D编辑器，或者叫Prompt可视化。从下图我们可以一张好的AIGC图片除了人物特点，还要包括视角、镜头等复杂参数，而这些参数对于绝大部分来说是不可感知的，所以我觉得在未来，WebUI有可能增加Three.JS技术，将这些跟拍摄相关的参数变成一个3D编辑器，类似一个3D模型查看器一样，它可以让用户通过鼠标切换视角，以及通过选项切换镜头类型和光线来源，甚至还有一个人体模型，类似上图的OpenPose，用户可以调整它的动作，甚至将物体摆放在合适的位置。由于暂时没有一个准确的图片或者视频可以表示我的意思，我拿了一个AR视频来阐释一下。

以上是我去年11月份的思考，更多关于检测和可视化。以下是我当前的最新思考：

得益于ControlNet线稿功能，我认为类似iPad的Procreate产品非常适合加入AIGC技术，大家可以想象一下，用户画完线稿就能在其他图层生成多种风格的画稿，如果用户觉得不满意可以直接在线稿图层重新修改，例如修改人体的动作甚至表情，这极大提高了生产效率。
如果Stable Diffusion出现了局部微调的概念，准确性和可玩性会进一步提高。怎么理解？众所周知AI绘画最难的就是生成手部，如果我们能对手部进行局部微调，然后将这个新的模型放进整图中，那么手部问题可以被解决。除此之外，如果首饰、武器都可以像零件被微调然后合成到整图中，那么每一个元素的唯一性也能得到保障（这也是AIGC当前存在的问题）。
基于Lora及各种微调技术，我们可以保证图像中角色的脸部保持一致。在未来我们有可能通过1-3张图就能让模型记住这个角色的所有特征，如果我们能将这些角色像零件一样保存下来，配合ControlNet就能一人画漫画了！说不定以后你们也能看到我画的漫画(◔ д◔)，我相信那时是漫画界百花齐放的时候~
基于各种识别检测技术，AIGC可以自行将物体进行替换，部分工作通过AIGC自动绘画会形成主流。
基于2和3，Gif2Gif和Video2Video的质量也会提升一个档次。
个人认为Invoke AI会是Stable Diffusion的下一代交互界面，它比传统的WebUI更像一个图像编辑器，建议大家都尝试一下。当前WebUI每个插件基本都是独立运行，未来各种插件在工作流上的融合以及交互细节会是重点，例如图片拖拽使用、工具列表化等等。
现在的Prompt对设计师来说太不友好了，这里可改进的点有很多。我觉得未来应该有这样的一个Prompt插件，它可以自行调整Prompt的位置及权重并展示相关的Demo图片（少量的Steps），以及自动搜索和索引其他人的Prompt，这能减少各位炼丹的难度。
上文提及的3D编辑器会是Stable Diffusion的下下一代交互界面，因为现在AIGC可以生成3D模型了，这时它的编辑难度会高很多。
Stable Diffusion+NERF神经渲染会让场景生成成为可能。
配合脚本，Storyboard应用会是AIGC for Video的重点应用场景，而场景设计严重依赖故事板，电影制作、基于空间交互的智能家居、XR都需要场景设计，这部分工作AIGC for Video一定比分镜稿和文字更有优势。

最后聊一个让我略震惊的事情，那就是Stable Diffusion生成的真人照片，如下图。看完一系列图后我第一个想法是大部分艺人和模特的收入可能会大减？因为AIGC可以快速生成图，而且没有肖像权、外貌随年龄变化或者塌房的问题；第二个想法是，结合语音交互和图像生成视频的技术，数字人会有更逼真和更低成本的生成；第三，未来可能有各种的杀猪盘出现，大家一定要警惕；第四，在未来什么是真什么是假？这是一个好问题。

#推荐阅读#

LLM正逐步改变交互系统

发现有趣的人机交互 006期

如何创作复杂的内容，交流社群已开启。