【悉尼大学博士论文】深度3D信息预测与理解

数据派THU

共 1252字,需浏览 3分钟

 ·

2023-01-12 22:09

来源:专知

本文为论文介绍,建议阅读5分钟

本文通过对4个具体任务的研究,围绕模型设计、多模态融合、稀疏数据分析、无监督学习、域适应和域泛化等关键问题展开研究。



与2D图像数据相比,3D信息与人类的视觉感知更密切相关,有助于智能机器更好地了解世界。三维信息预测和理解,如结构预测和语义分析,在三维视觉感知中起着重要的作用。具体到3D结构,比如深度数据,虽然我们可以从各种3D传感器中获取它,但在机器学习框架中,仍然有大量的尝试从单个图像、视频序列、立体声数据或多模态数据中预测它。主要原因是3D传感器通常价格昂贵,捕获的3D数据通常稀疏且有噪声。此外,网站中还有大量的图片,我们希望从中获取深度图。最近的研究表明,深度神经网络,如深度卷积神经网络(DCNNs),在相关任务中具有优势。尽管深度学习取得了巨大的成功,但仍有许多具有挑战性的问题需要解决。例如,尽管有监督深度学习促使深度估计模型的性能有了很大的提高,但在许多场景下,对大量真实深度数据的需求很难满足。因此,训练三维结构估计模型需要采用无监督学习策略。在本文中,我们以一个众所周知的具体任务,即单目深度估计为例,来研究这一问题。为了降低对真实深度的要求,研究了在合成数据上学习深度模型的域自适应技术,并探索真实数据中的几何信息,使域自适应过程感知真实域的几何结构。除了单幅或多幅图像的预测外,我们还可以从多模态数据中估计深度,例如RGB图像数据与3D激光扫描数据的耦合。为了实现这一目标,需要解决一些具有挑战性的问题。例如,由于3D数据通常是稀疏且不规则分布的,我们需要从稀疏数据中建模上下文信息并融合多模态特征。在本文中,我们通过研究深度完成任务来考察这些问题。具体而言,我们提出采用图传播来捕获观测到的空间上下文,并引入对称门控融合策略来有效地结合提取的多模态特征。

目前,各种经典的DCNNs被提出用于处理二维图像数据进行各种分析,如语义理解。而三维点集作为一种重要的三维信息表示形式,由于其稀疏性和无序性,为了理解语义内容,需要新的操作来建模局部形状,而不是传统的卷积。在本文中,我们选择点集作为三维数据的表示形式,即三维点云,然后设计了一个点云分析的基本操作。以往的工作主要考虑相邻点对之间的关系进行特征聚合,而忽略了编码局部形状结构的边之间的关系。为了提供补救,本文提出了一个新的自适应边到边交互学习模块。此外,由于三维激光扫描仪配置的多样性,捕获的三维数据往往因数据集的对象大小、密度和视角而异。因此,三维数据分析中的域泛化问题也是一个关键问题。然而,据我们所知,这个问题仍然没有得到充分的探索。为了对这一问题进行初步探索,本文还通过提出一个熵正则化项来研究3D形状分类中的域泛化,该项衡量学习到的特征和类标签之间的依赖性。

本文通过对4个具体任务的研究,围绕模型设计、多模态融合、稀疏数据分析、无监督学习、域适应和域泛化等关键问题展开研究。

https://ses.library.usyd.edu.au/handle/2123/27482



浏览 3
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报