ICML'24开源 | LEO：首个三维世界中的具身通用智能体-技术圈

本次分享我们邀请到了北京大学智能学院在读博士黄江勇，为大家详细介绍他们的工作：

An Embodied Generalist Agent in 3D World

项目主页：https://embodied-generalist.github.io/
开源代码：https://github.com/embodied-generalist/embodied-generalist
个人主页：http://huangjy-pku.github.io/

直播信息

时间

2024年5月29日（周三）晚上20：00

主题

ICML'24|LEO: 三维世界中的具身通用智能体

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播，或前往B站搜索3D视觉工坊观看直播

嘉宾介绍

黄江勇

北京大学智能学院在读博士，北京通用人工智能研究院(BIGAI)通用视觉实验室实习研究员。研究方向为多模态学习，场景理解，具身智能。

直播大纲

研究背景与动机
具身通用智能体: LEO
三维指令微调数据集: LEO-align & LEO-instruct
实验结果与demo展示

参与方式

DEMO

摘要

想要迈向通用人工智能，必须要构建一个能够理解人类生活的真实世界并掌握丰富技能的具身通用智能体。近年以来，以 PALM-E[1]、LLaVA[2]、GPT-4V[3]等为代表的多模态大模型（Multi-modal Large Language Model）在自然语言处理、视觉理解、机器人等任务上取得了显著的成功，但这类模型都是基于二维图片文本数据训练得到，在理解三维世界和与三维世界交互方面能力欠缺。 为解决这一问题，北京通用人工智能研究院联合北京大学和清华大学的研究人员提出了首个三维世界中的具身多任务多模态的通才智能体LEO。通才智能体LEO可以完成感知（perception）、推理（reasoning）、对话（dialogue）、规划（planning）和动作执行（acting）等任务。LEO的三维视觉语言理解、具身推理和动作执行能力在现实世界中有广泛的应用场景与巨大的应用价值。

模型

LEO 模型的整体设计思想围绕两个核心点：

在统一的框架内处理第一视角的二维图片、三维场景信息和自然语言指令，并同时支持文本与动作的输出；
能够充分利用预训练语言模型的先验信息来促进下游任务。

基于上述两个原则，作者设计了上图所示的模型框架，将所有的多模态（2D、3D、text）输入都对齐到 LLM 的文本空间。其中，作者利用 PointNet++ 提取出场景点云中物体级别的特征，随后用空间编码器（Spatial Transformer）对空间位置关系进行建模，从而得到三维场景级别（scene-level）的特征。输入中的二维图像则经过预训练模型 OpenCLIP ConvNext 处理得到第一视角的视觉特征。二维和三维的视觉特征最后分别经过 projector 映射到文本空间中。模型的输出空间包含文本和动作 token，支持视觉语言、具身推理与动作执行等任务。LEO 的模型框架统一了不同任务的多模态输入输出序列，用统一的自回归损失函数进行训练。作者采用 Vicuna-7B 作为预训练语言模型，并利用 LoRA 方法进行微调。

数据

LEO 的训练分为两个阶段：1）三维视觉 - 语言对齐，2）视觉 - 语言 - 动作指令微调。因此，作者分别收集了两个阶段的训练数据集：LEO-align 和 LEO-instruct，其整体概况如下图所示。数据集涵盖了大规模的三维物体数据，如 Objaverse，以及三维场景数据集，如 ScanNet、3RScan、Matterport3D 等，还包括了机器人操作相关的数据集 CLIPort。

在三维视觉语言数据收集过程中，作者提出了基于场景图（scene graph）与 LLM 的自助数据生成方法，并设计了一系列优化措施确保生成的数据质量，如下图所示。

实验结果

LEO 在描述（3D captioning）、问答（3D QA）、具身推理（embodied reasoning）、具身导航（embodied navigation）、机器人操作（robotic manipulation）等多个任务上展示了杰出的能力。

三维视觉语言理解

作者在三维场景问答数据集 ScanQA、三维物体描述数据集 Scan2Cap、三维场景具身推理数据集 SQA3D 上测试了模型的能力，这几类任务都以三维场景、自然语言指令为输入，其中 SQA3D 任务上还包括了提问时所处的位置和朝向，基于这些输入模型需要给出相应的回答。作者比较了之前各个数据集上的 SOTA 方法，如 3D-VisTA [4]，3D-LLM [5]，结果如下表所示，实验结果表明 LEO 在三维视觉语言理解的任务上的多个指标明显优于之前的方法。

具身动作执行

作者测试了 LEO 在机器人操作数据集 CLIPort 上的表现，该任务要求模型根据三维、二维感知结果和自然语言指令输出机械臂操作指令。作者比较了 CLIPort 的基线方法 [6]，结果如下表所示。结果表明 LEO 与 SOTA 方法的表现接近，甚至有更优的泛化性（unseen tasks）。值得一提的是，LEO 未引入针对机器人操作任务的归纳偏置（inductive bias），直接输出动作指令，其简洁的视觉语言模型展示出了解决机器人操作任务的潜力。

作者还测试了 LEO 在 MP3D（in domain）和 HM3D（out of distribution）这两个数据集上的表现，这一任务以三维场景、第一视角图片和自然语言指令作为输入，模型需要预测下一步的导航动作。论文与近期的相关工作 [7, 8] 进行了比较，如上表所示。可以看出所提方法在学习最短路径数据下的表现可圈可点，在 SPL 指标上超越了先前的基准方法，而由于 LEO 的模型没有采用 recurrence 的结构，因此在学习 70k human demonstrations 的设定下表现出的能力有限。

场景对话与任务规划

下图展示了 LEO 在多种任务中的可视化结果，可以看出，由于经过了指令微调训练的过程，LEO 可以进行多轮的场景对话，如按照用户需求在场景中寻找物体、按照不同的要求描述房间中的物体、给出建议等。还可以根据场景信息进行任务规划，如将房间整理为一个学习空间、打扫房间、重新装饰房间等。LEO 在对话与规划任务中展现出了两个亮点：1）回答与场景中的物体密切相关；2）丰富的空间位置关系描述。更多的例子可以在项目主页中进一步了解。

分析

为了挖掘关于具身通用智能体的insights，作者进行了多组对比实验，探索不同数据组成和训练策略对模型表现的影响。另一方面，作者基于 LEO 探索验证了 scaling law。实验结果如下所示。

总结

本文提出的智能体 LEO 将当前的 LLM 模型能力拓展到了三维世界以及动作执行任务上，这一工作为构建通用具身智能体迈出了重要的一步。基于这一工作，作者认为未来可以在如下方面进一步进行探索：

通过大规模的场景 - 文本数据提升三维视觉 - 语言定位能力；
填补视觉 - 语言能力和动作执行能力之间的差距；
探索具身通用智能体的对齐和安全问题。

团队介绍

论文核心团队来自北京通用人工智能研究院通用视觉实验室，团队负责人黄思远博士长期从事关于三维场景理解、具身智能体、视觉机器人等方向的相关工作。该团队拥有包括全职研究员、工程师、以及实习生在内的三十余人团队，团队的长期目标是打造未来的通用具身智能体 / 视觉机器人。

参考文献

[1] Danny Driess, et al. Palm-e: An embodied multimodal language model. ICML, 2023.

[2] Haotian Liu, et al. Visual instruction tuning. NeurIPS, 2023.

[3] OpenAI. Gpt-4 technical report. arXiv preprint arXiv:2303.08774, 2023.

[4] Ziyu Zhu, et al. 3d-vista: Pre-trained transformer for 3d vision and text alignment. ICCV, 2023.

[5] Yining Hong, et al. 3d-llm: Injecting the 3d world into large language models. NeurIPS, 2023.

[6] Mohit Shridhar, et al. Cliport: What and where pathways for robotic manipulation. CoRL, 2021.

[7] Ram Ramrakhya, et al. Habitat-web: Learning embodied object-search strategies from human demonstrations at scale. CVPR, 2022.

[8] Arjun Majumdar, et al. Where are we in the search for an artificial visual cortex for embodied intelligence? NeurIPS, 2023.

[9] Jared Kaplan, et al. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020.

注：本次分享我们邀请到了北京大学智能学院在读博士黄江勇，为大家详细介绍他们的工作：An Embodied Generalist Agent in 3D World。如果您有相关工作需要分享，欢迎联系：cv3d008