图片/文字/视频跨模态检索综述-技术圈

向AI转型的程序员都关注了这个号👇👇👇

机器学习AI算法工程公众号：datayx

0 引言

在过去的二十几年里，不同类型的媒体数据如文
本、图像和视频迅速增长。通常，这些不同类型的
数据用于描述相同的事件或主题。例如，网页通常
不仅包含文本描述，还包含与之匹配的图像或视频。这些不同类型的数据被称为多模态数据，表现出模
态间异构特性并具有广泛的应用，如图 1 所示，互
联网与社交媒体涌现的大规模多模态数据可以用于
进行主题检测、信息推荐、检索等。

多模态数据的迅速增长使得用户很难有效地搜
索感兴趣的信息，也就衍生了各种各样的检索、搜
索技术。然而这些搜索技术大多是针对单一模态内
检索，如基于关键字的检索和基于内容的检索，它
们只执行相同媒体类型的相似性搜索，如文本检索、
图像检索、音频检索和视频检索。近些年来，移动
设备和新兴的社交网站（如 Facebook、Flickr、
YouTube 和 Twitter）的普及使得用户对跨模态数据
检索的要求越来越高。例如，用户正在游览长城，
希望通过拍照检索相关的文本、音频等材料作为指
南。通常，跨模态检索的目的是以一种模态的数据作为查询来检索相关的其它模态数据。

近些年来，跨模态检索引起了研究者广泛的研究
兴趣。一般来说，与传统的单模态检索方法相比，
跨模态检索需要构建跨模态关系模型，以便用户可
以通过提交他们所拥有的模态来检索他们期望的模
态。因此，跨模态检索的挑战在于如何度量不同模
态数据之间的内容相似性，也称之为异质鸿沟问题
（heterogeneity gap）。近些年来，随着深度学习技
术的推广以及其在计算机视觉、自然语言处理、语
音分析等领域的显著成果（LeCun 等，2015），以
深度学习技术为基础的表示学习对于缓解异质鸿沟
问题提供了一种有前景的解决方案。大量的深度跨
模态检索技术被提出并取得了优异的跨模态检索性
能，在学术界和工业界产生了广泛的影响。

本文原论文PDF 获取方式：

关注微信公众号 datayx 然后回复跨模态即可获取。

AI项目体验地址 https://loveai.tech

本文旨在对深度跨模态检索提供全面的综述。在
此之前，本文作者在该方向进行了深入的研究，从
特征选择、子空间对齐、模态缺失、语义顺序学习、
小样本学习等方面进行了较多探索（Huang 等
2020；Huang 等，2019；Huang 等，2019；Huang 等，
2018；Yin 等，2017；Huang 等，2017；Wang 等，
2016；Xu 等，2016；He 等 2015；Huang 等，2015；Wang 等，2013；Yin 等，2018），对于该领域当
前的研究现状和近几年的最新进展较为熟悉，这也
是作者们立足自身研究基础选择撰写该综述的主要
原因。Liu 等人（2010）在 2010 年进行了跨模态检索综述，但是无法囊括近些年来涌现的新方法新工
作。Xu 等人（2013）在 2013 年进行了多视角学习
综述但却并非针对异质模态且检索任务。Peng 等人
（2017）在 2017 年发表了跨模态检索的综述论文，
但当时没有对 2017 年之后的跨模态检索方法进行
总结。近些年来，Baltrusaitis 等人（2019）对多模
态机器学习进行了综述和分类，但是其研究重点过
于分散，无法涵盖跨模态检索任务的所有重要问题。针对跨模态检索面临的各种挑战性问题，研究者提
供了各种思路和技术。本文着重总结了这些与以往
相关研究有很大不同的深度跨模态检索的最新研究
成果。需要注意的是，本文关注在跨模态检索这一
基本跨模态分析任务上，其它相关主题，如图像/视
频描述、图文问答等文献（Li 等，2019；Srivastava
等，2019）不在本文讨论范围内。

本文的主要贡献如下：

 本文综述了深度跨模态检索的最新进展。它
包含了许多在以前的综述中没有出现的新
的重要的参考文献，该综述有利于初学者快
速了解和熟悉跨模态检索领域。

 本文对深度跨模态检索方法进行了分类，介
绍了不同类别下的代表性方法并重点阐述
了同类下不同方法以及不同类方法之间的
差异，这有助于该领域研究者更好理解跨模
态检索领域中使用的各种技术。

本文对深度跨模态检索领域面临的机遇和
挑战进行了梳理，并总结了未来该领域的发
展方向,这将有助于启发进而做出更有价值
的跨模态检索工作。

本文的整体组织结构如下。第二章给出深度跨模
态检索的分类依据与方法。第三章介绍不同类别下
代表性的深度跨模态检索算法与其区别。第四章给
出广泛使用的基准跨模态数据库。第五章进行讨论
与未来展望。最后，第六章对本文进行总结。

1 深度跨模态检索概述

深度跨模态检索的一般框架如图 2 所示。深度特
征学习以及跨模态相关关系建模为多模态共同表示
学习的重要步骤，在减少异质鸿沟问题中发挥重要
作用。基于多模态共同表示，跨模态相似度可以进
行有效度量。一般来说，上述共同表示可以是实值表达也可以是二值表达。对于实值表达，学习得到
的不同模态表达为实数值（一般为向量）。对于二
值表达，学习得到的不同模态表达为-1 以及 1 构成
的编码，该精简表达有助于减少存储需求且加速跨
模态检索速度，相关方法也称之为跨模态哈希。

在不同的跨模态数据信息提供下，研究者提出了
广泛的学习技术并表现出一定的差异。这些技术大
概包含七类，即典型相关分析、一一对应关系保持、
度量学习、似然分析、学习排序、语义预测以及对
抗学习。下面简要介绍这七类技术。典型相关分析线性投影两个模态数据至低维空
间并最大化模态间相关关系，深度神经网络的引入
一般替换上述线性投影而有利于相关性最大化目标
函数的优化。一一对应关系保持在共同表示层构建跨模态数据间
一一对应关系，进而实现对应的跨模态数据间距离
最小化。其该项技术广泛应用于早期尤其是无监督
跨模态检索中。

度量学习引入度量函数或者深度神经网络构建
数据间相似性与非相似性关系，其主要目标为相似
样本在共同表示空间具有较小距离而非相似样本具
有较大距离。似然分析作为生成模型，一般通过极大似然优化
目标函数进行观测数据的生成建模，在跨模态数据
中，该观测数据可以是多模态特征、数据间对应关
系以及数据间相似度等。学习排序构建排序模型保证在共同表示空间下
数据间的排序关系得以保持。在跨模态数据中，该
排序信息一般以三元组的形式通过模态内或者模态
间相似关系进行构建。语义预测通过一般分类任务模型实现模态内数
据相似性结构保持，即具有相同的语义标注则具有
相似的共同表示，通过此间接实现跨模态数据关系
构建，即相同语义下跨模态共同表示一致。对抗学习主要是生成对抗网络思想（Goodfellow
等，2014）的引入，通过构建生成-对抗任务以学习多模态共同表示，建模过程迫使相似的跨模态数据
共同表示统计不可分，进而实现模态间相似度计算。需要注意的是深度跨模态检索代表性方法的划
分主要体现在实现共同表示学习任务的普遍优化目
标的差异上。不同代表性方法往往存在多种技术的
整合，为方便进行对比，我们针对方法本身的最主
要特性进行划分，相关代表性方法整理如表 1 所示。