TPAMI2021：基于视频的面部微表情分析综述与微-宏表情数据集发布-技术圈

↑ 点击蓝字关注极市平台

作者丨孙国荃

编辑丨极市平台

极市导读

本文的工作提供了一个全面的综述，重点聚焦在微表情检测和识别相关的计算算法，以及用于构建自动检测与识别系统的图像和视频特征，并发布了一个新的数据集，称为微表情-宏表情仓库，它包含从同一个体采集的宏表情和微表情。

微表情不同于传统的面部表情，它是一种自发的、短暂的面部表情，能够揭示人们试图隐藏的真实情感。因此，微表情可以对诸多应用提供重要的信息，例如：测谎，刑事侦查等。微表情的短暂的和低强度等特点导致微表情的检测和识别非常困难，并且严重依赖于专家经验。由于微表情内在的特殊性和复杂性，基于视频的微表情分析是极具挑战性的研究领域。现有的微表情数据库大多数在诱发范式、标记方法或数据量小等方面存在不足；微表情研究领域尚没有一个全面的综述为研究者提供系统的概述和统一的评价。针对这些问题，山东大学贲晛烨教授团队联合清华大学刘永进教授团队、复旦大学张军平教授团队、中科院心理所王甦菁教授团队、哈尔滨工业大学孟维晓教授团队等，在IEEE Transactions on Pattern Analysis and Machine Intelligence上发表的论文《Video-based Facial Micro-Expression Analysis: A Survey of Datasets, Features and Algorithms》，同时发布了一个新的数据集——微-宏表情仓库(MMEW)，并从神经心理学、现有的数据集、用于微表情分析的各种特征、相关算法等各个方面进行了全面的分析和讨论。

1. 贡献：

（1）我们提供了一个全面的综述，重点聚焦在微表情检测和识别相关的计算算法，以及用于构建自动检测与识别系统的图像和视频特征。本文还对最新的微表情数据集进行了详细的总结，在此基础上，对具有代表性的微表情识别方法进行了统一的公平比较。

（2）基于对现有数据集研究的局限性，我们提出并发布了一个新的数据集，称为微表情-宏表情仓库（Micro-and-macro expression warehouse, MMEW），它包含从同一个体采集的宏表情和微表情。这个数据库可以启发未来的研究，探索同一个体的宏表情和微表情之间的关系。

2. MMEW数据集

MMEW遵循SMIC、CASME、CASME II、SAMM和CAS(ME)2诱发范式，即一边观看情感视频，一边试图保持中立的表情。相对于目前最先进的CASME II数据集，MMEW的主要优势如下：MMEW中的样本具有较大的图像分辨率（1920x1080像素），而CASME II的分辨率是640x480像素。此外，MMEW具有较大的面部分辨率（400 x400像素），而CASME II的面部尺寸只有280x340像素。

MMEW和CASME II的微表情样本数分别为300和247。MMEW的情感分类更精细，即高兴（36），愤怒（8），惊讶（89），厌恶（72），恐惧（16），悲伤（13）和其他（66）；相比之下，CASME II不包括愤怒、恐惧和悲伤等类别，并且CASME II中的其他类别占66/102=41.3%。

MMEW包含900个宏表情样本，与MMEW里的微表情样本集具有相同的类别（高兴，愤怒，惊讶，厌恶，恐惧，悲伤），由同一组参与者表演产生。与最先进的SAMM相比，MMEW包含更多样本（300 vs.159）。此外，MMEW包含同一受试者的宏表情和微表情，这一个特点还开辟了新的研究方向，即使用来自自己数据集的宏表情数据做有益于微表情识别的迁移学习，而不是寻找其他数据集。

图1 在MMEW数据集中从同一个体采集的六个宏表情和六个微表情。宏表情（如图3a）可以是单张图像的，而微表情由于它的低强度特点，分析微表情需要利用整个序列，如图3b所示每个微表情给出了起始帧、高潮帧和结束帧，红色方框中勾勒出的肌肉微变化的位置。

3. 手工特征在MMEW和SAMM数据集上被试独立的性能比较

我们在数据集MMEW和SAMM上评估了代表性的手工特征的性能，包括LBP-TOP、DCP-TOP、LHWPTOP、RHWP-TOP、LBP-SIP、LBP-MOP、STLBP-IP、DiSTLBP RIP、FDM、MDMO和稀疏MDMO。同时，分类器选择了KNN、SVM（RBF核）和ELM，五折被试独立的实验结果如下表所示。

从实验结果可以看出，一般来说，MDMO和稀疏MDMO使用SVM或者ELM分类器具有较好的识别率，但ELM的性能相对不稳定。分析原因如下：MDMO和稀疏MDMO都是基于光流特征提取的，都利用局部统计运动和空间运动定位信息，获得的光流场对光照不敏感条件和头部移动，因此，MDMO和稀疏MDMO相对于其他手工特征获得了更好的识别效果。

4. SOTA方法在MMEW和SAMM数据集上被试独立的性能比较

我们在数据集MMEW和SAMM上评估了SOTA方法的性能，包括深度学习方法、多任务中级特征学习（multitask mid-level feature learning）和KGSL。表2总结了五折被试独立的比较结果。从表2中可以看出，TLCNN获得了最好的识别性能（在MMEW上为69.4%，在SAMM上为73.5%）。这是由于（1）使用宏表情样本进行预训练，（2）使用微表情样本进行微调，解决了微表情样本数量不足的问题，此外，还利用LSTM从微表情样本序列中提取出了具有鉴别能力的动态特征。

我们还在图2中给出了混淆矩阵，可以看出：在MMEW中，所有的“厌恶”和“惊讶”样本都可以完全被识别；而“恐惧”和“悲伤”样本很难训练，这是因为大约五分之四的恐惧（16）和悲伤（13）的MMEW样本用于微调（括号中的数字表示每类的样本数），用于微调的样本太少。类似的情况也发生在SAMM中，恐惧和悲伤的样本总数分别为7和3，因此，“恐惧”和“悲伤”的分类结果更容易不一致（图4b）。

5. 研究团队或实验室介绍

贲晛烨教授团队在IEEE T-PAMI、IEEE T-IP、IEEE T-CSVT、IEEE T-MM、PR 、CVPR等国内外核心期刊会议上发表学术论文96篇，1篇入选ESI高被引论文，被评为2019年《中国图象图形学报》新媒体高关注度作者。申请国家发明专利74项，授权41项，转让1项，成果在银川监狱、呼和浩特第三监狱和赣州监狱的个人谈话、心理矫治与智能审讯系统上成功应用，为科学矫正提供了技术支撑，社会效益显著。

6. 论文信息

标题：Video-based Facial Micro-Expression Analysis: A Survey of Datasets, Features and Algorithms

作者：Xianye Ben, Yi Ren, Junping Zhang Su-Jing Wang, Kidiyo Kpalma, Weixiao Meng, Yong-Jin Liu

发表期刊：IEEE Transactions on Pattern Analysis and Machine Intelligence

年卷期页面：DOI：10.1109/TPAMI.2021.3067464

引用格式：X. Ben et al., "Video-based Facial Micro-Expression Analysis: A Survey of Datasets, Features and Algorithms," in IEEE Transactions on Pattern Analysis and Machine Intelligence, doi: 10.1109/TPAMI.2021.3067464.

网址链接：https://ieeexplore.ieee.org/document/9382112