CVPR'24 | I'M HOI：拥抱多模态！融合视觉惯性感知，精准捕捉人物交互!-技术圈

本次分享我们邀请到了上海科技大学智能感知与人机协同实验室在读硕士赵乘风，为大家详细介绍他们CVPR2024中稿的工作：

I'M HOI: Inertia-aware Monocular Capture of 3D Human-Object Interactions
论文作者：赵乘风等人
第一完成单位：上海科技大学
项目主页：https://afterjourney00.github.io/IM-HOI.github.io/

直播信息

时间

2024年5月24日（周五）晚上20：00

主题

CVPR'24|I'M HOI: 拥抱多模态！融合视觉惯性感知，精准捕捉人物交互!

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播，或前往B站搜索3D视觉工坊观看直播

嘉宾介绍

赵乘风

上海科技大学智能感知与人机协同实验室在读硕士。研究方向为3D计算机视觉、图形学，动作捕捉、生成与理解。

个人主页： https://afterjourney00.github.io/

直播大纲

1、动作捕捉(Motion Capture, MoCap)与人物交互(Human Object Interaction, HOI)研究背景

2、I'M HOI研究动机

3、I'M HOI论文算法详解

4、I'M HOI论文数据详解

参与方式

DEMO

摘要

如今，我们身边存在着许多像手机一样的智能设备，它们集成多种传感器于一体，提供了丰富的多模态感知信号。低成本地捕捉人与物体之间的交互动作依然是一个远没有解决的问题。为了解决这一问题，我们在这篇工作中提出了I'M HOI，这是一个使用单相机与单惯性传感器对人物交互运动进行精准捕捉的新方法。此方法由两个核心模块组成，分别是“普适交互运动推理模块”和“类别可知扩散滤波模块”。对于前者，我们引入一种基于3D关键点检测的方法，融合IMU信号和rgb视频流，通过多层卷积神经网络递进式恢复人、物整体位姿。对于后者，我们采用条件扩散模型，对以IMU信号和前一模块检测结果为条件的交互动作条件概率分布进行建模，同时针对每一种特定物体进行物体类别可知的交互模式学习。这一扩散模型极大地优化了初始检测结果，并能够合理地补全交互密集的手部动作。为了训练和验证提出的算法，我们采集了一个包含人物交互动作标注、多视角 RGB 视频以及安装在物体上的 IMU 测量数据的多模态大型数据集。充分的对比和消融实验表明我们的方法在多种场景，尤其是高速交互运动以及带有严重遮挡的复杂交互场景下均比现有方法(VisTracker[CVPR'23] / CHORE[ECCV'22] / PHOSA[ECCV'20])精准且高效。

方法

我们的方法由两个核心模块组成，分别是“普适交互运动推理模块”和“类别可知扩散滤波模块”。

普适交互运动推理模块 General Interaction Motion Inference

在这一模块的流程中，首先是对图像进行预处理。我们先借助SAM把RGB图片中的人与物体进行分割，得到人、物各自的遮罩。随后，我们使用ResNet对叠放的RGB和物体遮罩图片进行图片特征提取。

以图像特征作为输入，我们使用多尺度的卷积神经网络回归检测三维人体关节点和物体的中心点。经过多层反卷积操作，我们重建出三维人体关节点的热力图并求取期望值得到三维人体关节点的位置（相对于根结点）。在得到三维关节点位置预测之后，我们微调了一个现有的逆向运动学求解器来获取人体动作的SMPL模型参数化表达。

对于物体的轨迹追踪和姿态预测，我们首先将固定在物体上的IMU原始观测（旋转和加速度）作为初始预测结果。考虑到IMU随时间逐渐累积的观测漂移以及硬件系统的白噪声，我们需要对该系统误差进行修正。为此，我们参考PyMAF在每个中间图像特征图后附加了一个基于 MLP 的回归器，形成网格对齐反馈回路(Mesh Alignment Feedback, MAF)，从而迭代式地估计物体运动的修正增量。

最后，在这一模块中，我们还提供了一个鲁棒且轻量化的优化模块，可以选择性进行使用。该优化模块进一步促使物体的旋转和轨迹预测值拟合至视觉遮罩和IMU观测信号。

类别可知扩散滤波模块 Category-specific Interaction Diffusion Filter

由于“普适交互运动推理模块”是逐帧预测（若不考虑可选的优化模块），没有充分利用整个人物交互运动的连续性信息，我们发现其预测结果在时序上存在较大的不一致性。同时，人物交互发生最频繁的方式——手物交互中的手部动作也很难通过单目检测的方式预测出来。因此，我们在本模块利用条件扩散模型，以物体类别可知的方式对特定的人物交互模式进行建模，以生成的方式建立动作序列的时序一致性，并合理地填充缺失的手部动作。

具体来说，我们首先定义身体、手部的位姿以及IMU信号为人物交互的动作表达。随后，在训练过程中我们以N步的马尔可夫链为模型迭代地进行前向扩散，为目标动作添加高斯噪声。并在反向去噪过程中使用身体部分的姿态和IMU信号作为生成条件，掩去手部动作信息，输入神经网络中进行目标动作预测。为了充分利用这种动作表达内部信息的相互制约关系，我们相应地引入了四种正则项来确保动作生成的准确性和鲁棒性。

实验

I'm-HOI在多个人物交互动作数据集(BEHAVE[CVPR'22], InterCap[IJCV'24], HODome[CVPR'23], CHAIRS[ICCV'23]以及IMHD2)上表现显著优于PHOSA[ECCV'20]，CHORE[ECCV'22]和VisTracker[CVPR'23]，具有更强的泛化性能。在单帧和连续的结果上也有着更加均衡的表现。

推理效率上，相较于PHOSA2min/帧，CHORE1min/帧以及VisTracker20s/帧的推理速度，I'm-HOI仅需0.5s/帧。如果移除可选的优化模块，推理效率还有进一步的提升空间。

数据采集

为了训练和评估我们的方法，我们构建了IMHD2数据集。该数据集综合了人物交互动作，多视角视频流，IMU信号和物体几何的3D扫描。

注：本文分享我们邀请到了上海科技大学智能感知与人机协同实验室在读硕士赵乘风，为大家详细介绍他们的工作：I'M HOI。如果您有相关工作需要分享，欢迎联系 cv3d008