【CVPR2024】用于视觉-语言导航的体积环境表示数据派THU关注共 728字,需浏览 2分钟 ·2024-04-12 04:00 来源:专知 本文为论文介绍,建议阅读5分钟 为了实现具有细粒度细节的全面3D表示,我们引入了体积环境表示(VER),该表示将物理世界体素化为结构化的3D单元。 视觉-语言导航(VLN)要求代理基于视觉观察和自然语言指令在3D环境中导航。显然,成功导航的关键因素在于全面的场景理解。之前的VLN代理采用单目框架直接提取透视视图的2D特征。尽管这种方法直接,但它们在捕获3D几何和语义方面存在困难,导致了部分和不完整的环境表示。为了实现具有细粒度细节的全面3D表示,我们引入了体积环境表示(VER),该表示将物理世界体素化为结构化的3D单元。对于每个单元,VER通过2D-3D采样将多视图2D特征聚合到这样一个统一的3D空间中。通过从粗到细的特征提取和对VER的多任务学习,我们的代理联合预测3D占用、3D房间布局和3D边界框。基于在线收集的VER,我们的代理执行体积状态估计并建立情节记忆以预测下一步。实验结果显示,我们从多任务学习中得到的环境表示在VLN上带来了明显的性能提升。我们的模型在VLN基准测试(R2R、REVERIE和R4R)上达到了最先进的性能。 浏览 5点赞 评论 收藏 分享 手机扫一扫分享分享 举报 评论图片表情视频评价全部评论推荐 3D视觉体积测量方案新机器视觉0基于视觉的无人机导航综述目标检测与深度学习0基于视觉的无人机导航综述新机器视觉0GraphQL用于 API 的查询语言GraphQL既是一种用于API的查询语言也是一个满足你数据查询的运行时。GraphQL对你的API中的数据提供了一套易于理解的完整描述,使得客户端能够准确地获得它需要的数据,而且没有任何冗余,也让APiRobot视觉导航小车用RaspberryPi做的一个视觉导航小车PiRobot视觉导航小车用 Raspberry Pi 做的一个视觉导航小车Emu用于编程 GPU 的高级语言Emu 是用于编程 GPU 的高级语言。与其他语言(如 OpenCL 或 Halide)嵌入 C 或Emu用于编程 GPU 的高级语言Emu是用于编程GPU的高级语言。与其他语言(如OpenCL或Halide)嵌入C或C++不同,Emu用于嵌入Rust。它为编写函数提供了单个过程宏。宏将编译时的函数转换为较低级别的代码,以便它们可以Spatial用于 FPGA 的领域特定语言Spatial是用于FPGA的DSL,一种新的领域特定语言,用于从参数化的高级抽象中对可重配置硬件进行编程。Spatial即是SpecifyParameterizedAcceleratorsThrou视觉惯性导航:一个简明的概述新机器视觉0点赞 评论 收藏 分享 手机扫一扫分享分享 举报