AVGCN:利用人类注意力引导的图卷积网络进行轨迹预测
共 2555字,需浏览 6分钟
·
2021-01-22 10:10
点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达
行人轨迹预测是一项关键而又具有挑战性的任务,尤其是在拥挤的场景下。我们认为引入注意机制来推断不同邻居的重要性对于在不同人群大小的场景中精确预测轨迹是至关重要的。在这项工作中,我们提出了一种新的方法,AVGCN,利用基于人类注意力(a表示注意,V表示视野约束)的图卷积网络(GCN)进行轨迹预测。首先,我们训练一个注意网络来估计邻近行人的重要性,利用被试执行鸟瞰人群导航任务时收集到的注视数据。然后,我们将学习到的注意权值通过对行人视野的约束调制到一个轨迹预测网络中,该网络使用GCN来有效地聚合来自邻居的信息。AVGCN还利用变分轨迹预测的方法考虑了行人轨迹的随机性。我们的方法在几个轨迹预测基准上实现了最先进的性能,并在所有考虑的基准上实现了最低的平均预测误差。
这项工作以两种方式应对上述挑战。首先,我们使用一个图结构来表示人群状态。其次,我们使用人类操作员在执行鸟瞰导航任务时获得的注视数据来学习一个网络,该网络根据注意力衡量的重要性,为人群中的不同行人分配不同的权重。我们进一步利用每个行人的视野约束来约束权重。
我们的工作有以下几个关键贡献:
我们利用图形卷积网络(GCN)来更好地模拟人类群体中的社交互动。GCN的使用使我们的方法能够原则性地适应不同的人群规模。
我们利用人类的注意力来指导注意力分配。由于我们用来收集注视数据的鸟瞰视图并不适用于人群中的实际行人,为了更接近真实世界的情况,我们考虑了视野约束。
我们利用变分推理来模拟轨迹的随机性。
通过上述机制,我们的AVGCN在几个不同的轨迹预测基准中实现了最先进的性能,并在所有考虑的数据集中实现了最佳的平均性能
整个轨道预测系统
为了清晰起见,我们仅展示了行人i的轨迹预测过程。该系统包含一个基于gcn的变分编码器-解码器骨干,用于序列到序列的轨迹预测。对于每个行人,一个注意网络将注意力分配给邻近的行人,这取决于他们相对于行人i的位置和他们的速度。然后,一个视野过滤器根据现实世界的视野约束来调节注意。将得到的注意权值应用到注意池中,并调节GCN的邻接矩阵。序列到序列的预测由两个LSTMs实现。在(b)和(c)中,我们展开LSTM,以清楚地显示从输入到输出的映射。
估计行人注意的网络结构i。其他行人的网络也类似。在运动预测任务中,注意权重被学习以优化性能
两个从注意网络估计注意权重的例子。权重用每个行人周围粉色圆圈的半径表示,权重的值也在周围标记。红色的星星显示了用来计算地面真相注意力权重的凝视数据。受试者控制的虚拟行人显示为黄色。蓝色箭头显示每个行人的瞬时速度。虚拟行人中的绿色箭头显示了目标的方向。实验对象引导虚拟行人穿过人群到达目标。
运动预测的定量结果。我们使用平均绝对误差对五个不同的数据集进行评估。无注意损失对应的模型仅使用l2运动预测损失,即设β= 0。我们可以看到,学习注意力作为一项额外的任务提高了运动预测的准确性(数值越低表明性能越好)
使用我们的AVGCN和S-GAN模型生成轨迹的例子。虚线显示了20个随机生成的轨迹样本。实线表示观测到的历史轨迹。虚线显示了真实的未来轨迹。我们也用分布的平均值(z)表示变分编码器-解码器的平均预测。它们用点实线表示。
在本文中,我们提出了一种利用注意机制来预测多行人轨迹的新型vaine -like网络AVGCN。在不同的数据集上,所提出的模型优于最先进的方法。我们引入了图卷积网络来实现高效的社会互动聚合。首先,我们在一个运动预测任务中学习了一个来自人类注视的注意网络。然后我们将学习到的注意权值用于调节GCN中的邻接矩阵,用于行人轨迹预测。此外,为了更好地以更真实的方式整合注意权值,我们考虑了现实人眼视野的有限性,在注意调制之后考虑了额外的视野约束。我们发现,图卷积网络和注意机制的使用显著提高了模型的行人轨迹预测性能。
论文链接:https://arxiv.org/pdf/2101.05682.pdf
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~