ICLR'24 开源 | DiffTF:首个基于3D感知Transformer的3D物体生成最新SOTA!

3D视觉工坊

共 3687字,需浏览 8分钟

 ·

2024-05-26 10:45

本次分享我们邀请到了南洋理工大学S-Lab在读博士曹子昂,为大家详细介绍他们的工作:

Large-Vocabulary 3D Diffusion Model with Transformer
项目主页https://ziangcao0312.github.io/difftf_pages/
开源代码https://github.com/ziangcao0312/DiffTF

直播信息

时间

2024年5月26日(周日)晚上20:00

主题

ICLR'24 | DiffTF:基于Transformer的SOTA大词汇3D物体生成框架

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播,或前往B站搜索3D视觉工坊观看直播

嘉宾介绍

曹子昂

南洋理工大学S-Lab在读博士。研究方向为3D物体生成。

直播大纲

  1. 3D物体生成现有方法简介
  2. DiffTF论文详解
  3. 实验细节、代码、数据用法讲解

参与方式

DEMO

摘要

我们提出了一种基于扩散模型的大量类别 3D 物体生成框架(Large-Vocabulary 3D Diffusion Model with Transformer),克服了三个主要挑战:

  • a)3D 生成需要高效且表达力强的 3D 表示,
  • b)3D 物体拥有丰富多样的几何及纹理信息,
  • c)真实 3D 物体拥有复杂的外观。

本文提出了一种新的基于改进的三平面(triplane)和 Transformer 的 3D 感知扩散模型,DiffTF。

  1. 提高了三平面表征的拟合速度和准确性;
  2. 3D 感知的TransFormer能够处理跨平面的交叉关系,聚合通用 3D 知识和专用 3D 特征;
  3. 设计了3D感知的编码器/解码器来增强编码的三平面中的通用3D知识,以处理具有复杂外观的类别。

本文在ShapeNet和OmniObject3D(超过200个多样化真实世界类别)上的实验证明了DiffTF能够实现具有高度多样性、丰富语义和高质量的大词汇量3D物体生成。

方法

在游戏、机器人和建筑设计等应用中,大量高质量的3D资产是极其匮乏的资源。最近通过Diffusion模型生成3D物体的研究已经取得了不错的进展,然而大多数工作仍然只能在某一个或少数类别上效果还不错,无法扩展到大量的类别上。这就引出了本文的研究重点:生成高质量大量类别的3D物体。

首先,本文认为大词汇量3D物体生成面临如下几个挑战:

  • a) 需要表达力强且高效的3D表示;
  • b) 大量类别的多样性;
  • c) 真实世界物体外观的复杂性。

对于3D表示,显式表示易于评估但计算量大,隐式表示易扩展但评估很耗时。因此作者在本文采用一种混合的3D表示,三平面特征(Triplane feature)。此外,在3D物体生成领域,扩散模型由于SOTA的效果受到了很大关注,因此本文尝试用单个扩散模型来做大词汇量3D物体生成。

为了回答前文所提出的问题并解决这些挑战,本文主要从3D表示和模型架构方面提出了一种解决方案。所提出的DiffTF的方法流程如下图所示。

DiffTF整体流程图:1)训练共享权重解码器并拟合三平面特征;2)使用经过训练的三平面优化3D感知Transformer扩散模型。

实验

本文实验主要在ShapeNet和OmniObject3D两个数据集上进行。其中ShapeNet的实验包括Chair, Airplane, Car三个类别,分别有6770,4045,3514个物体。OmniObject3D主要用于评估大词汇量3D物体生成,该数据集包含大词汇量的真实扫描3D物体,用216个具有挑战性的类别,3D物体质量高且几何形状复杂,例如玩具、水果、蔬菜和艺术雕塑等类别。

评估准则

2D评估准则:

  • Fr ́echet Inception Distance (FID-50k)
  • Kernel Inception Distance (KID-50k)

3D评估准则:

  • Coverage Score (COV)
  • 基于Chamfer Distance (CD)的Minimum Matching Distance (MMD)

2D准则在128x128的分辨率下进行评估,3D评估随机采样1024个点进行评估。

与现有SOTA方法比较

DiffTF在ShapeNet上的单类别生成和在OmniObject3D上的大词汇量3D生成都超过了现有的SOTA方法,即NFD[1],EG3D[2],GET3D[3]。

ShapeNet上无条件生成的定量比较如下表所示,DiffTF在单类别生成方面超过了现有的方法。

ShapeNet上的可视化结果对比如下图所示,DiffTF在生成细节上具有明显优势。

OmniObject3D数据集上条件生成的定量比较,如下表所示。可以看到DiffTF在2D和3D指标方面明显优于其他SOTA方法。

OmniObject3D上的可视化结果对比如下图所示,DiffTF可以生成具有丰富语义信息的3D物体,易于与真实世界3D物体进行对应。

总结

为了将之前的在单个类别上优化模型的工作扩展到大词汇量的3D物体生成,本文提出了一种新的基于三平面的3D感知扩散框架DiffTF。它由两个 3D 感知模块组成:

  • 3D 感知编码器/解码器;
  • 3D 感知Transformer。

基于提取的通用和特殊的 3D 先验知识,DiffTF 可以生成具有丰富语义的各种高质量 3D 物体。并且在ShapeNet和OmniObject3D上与SOTA 方法的对比验证了DiffTF的良好性能。作者希望本文可以为大词汇量 3D 生成提供一些有价值的见解。

[1]  Shue J R, Chan E R, Po R, et al. 3d neural field generation using triplane diffusion[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 20875-20886.
[2]  Chan E R, Lin C Z, Chan M A, et al. Efficient geometry-aware 3D generative adversarial networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 16123-16133.
[3]  Gao J, Shen T, Wang Z, et al. Get3d: A generative model of high quality 3d textured shapes learned from images[J]. Advances In Neural Information Processing Systems, 2022, 35: 31841-31854.

注:本次分享我们邀请到了南洋理工大学S-Lab在读博士曹子昂,为大家详细介绍他们的工作:DiffTF。如果您有相关工作需要分享,欢迎联系:cv3d008

浏览 134
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报