问:在AI世界,推土机「生产」哪家强?

新智元

共 1544字,需浏览 4分钟

 ·

2022-07-12 18:36

来源:学术头条


如果有人问你,「挖掘机技术哪家强?」

你大概率会想起这句知名广告词:「中国山东找蓝翔」。
(不打广告,不打广告。)

那如果换个对象,换个问法,「
在人工智能(AI)的世界里,哪一家的推土机更 cool?

一个可能的答案是什么?

来,先斗一波图再说。






怎么样?各式各样的推土机(们),是不是十分酷炫,且充满了艺术气息?

但事实上,它们在现实中的模板,只是下面这个普普通通的、「大黄蜂」颜色的推土机。


当丑陋的推土机碰上梵高的《星空》,神奇的事情就发生了。


而让推土机任意变装的「魔法师」们,来自康奈尔大学(Cornell University)和 Adobe Research。

据介绍,他们可以利用人工智能技术将著名艺术品的风格融入任意 3D 场景中。

而且,相比于以往的研究,这一最新技术可以显示出更高质量的细节。

图|新方法显示出更少的几何伪影(来源:arXiv)

除了《星空》风格,研究团队也成功为一辆皮卡货车配上了爱德华·蒙克的《呐喊》的艺术风格,无论是在颜色匹配契合度上,还是在细节呈现上,融入效果都更优。

(来源:arXiv)

相关研究论文以「ARF: Artistic Radiance Fields」为题,已发表在预印本网站 arXiv 上。

据论文描述,转换质量提高的原因是,研究团队的人工智能技术可以直接比较原始图像和新风格的 3D 场景之间的细节。而以往的人工智能技术,只是将图像特征转换为更紧凑的统计集进行分析,从而丢失了很多原始细节。

对此,论文作者之一 Kai Zhang 表示,「我们试图真正捕捉微妙的艺术风格,就像《星空》的笔触。这对人类的感知非常重要,因为我们的眼睛对局部细节非常敏感。」

在此次工作中,研究团队证明了基于最近邻特征匹配(NNFM)样式损失在捕捉风格细节方面非常有效,同时保持了多视图的一致性。

图|基于 NNFM 获得一致的自由视点风格效果图(来源:arXiv)

同时,他们还提出了一种新的延迟反向传播(deferred back-propagation)方法——利用全分辨率渲染图像上定义的风格损失来优化内存密集型的辐射场。

图|延迟反向传播示意图(来源:arXiv)

此外,他们在一个在线调查中展示了 5 个不同的 3D 场景的 5 种不同艺术风格的视频,相比于以往的人工智能技术,他们的人工智能技术更受欢迎,占比超过 86%,获得了更多的分数。

创造艺术形象通常需要大量的时间和特殊的专业知识,将艺术作品扩展到 2D 图像平面之外的维度,比如时间(在动画中)或 3D 空间(在雕塑或虚拟环境中),会面临很多限制和挑战。

研究团队表示,这一最新的风格转换技术(style transfer technique)未来有望用于动画电影和游戏行业中,用于手动微调前的风格模板。

此外,这一技术也同样适用于写实风格转换(photorealistic style transfers),比如将正午时的自由女神像转换为日落时的自由女神像。


但是,这一技术也有很多局限性。例如,在捕捉 360 度可视场景时,还是需要借助可以悬停、从多角度捕捉视图的多相机或无人机的帮助。

而且,
算法成功运算一次可能需要 20 分钟的时间。这是一个非常耗时的过程,因为在反复试验的过程中,人们可能会尝试不同的风格。

为此,研究团队在接下来的工作中将致力于提高内容生成的效率。

或许在未来的某一天,这一技术将用在人人都在使用的智能手机上。

参考资料:
https://arxiv.org/abs/2206.06360
https://www.cs.cornell.edu/projects/arf/
https://github.com/Kai-46/ARF-svox2

浏览 32
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报