[ACM MM 2020] EFIFSTR: 基于字体风格无关特征学习的场景文本识别（有源码）-技术圈

点击上方“AI算法与图像处理”，选择加"星标"或“置顶”

重磅干货，第一时间送达

本文简要介绍ACM Multimedia 2020录用论文：“Exploring Font-independent Features for Scene Text Recognition”的主要工作。该工作旨在对场景文字图片提取字体风格无关特征，从而增强文本识别模型对文字风格的鲁棒性。

一、研究背景

如图1(a) 所示，现有的场景文字识别模型对于字体风格的鲁棒性不佳，面对不同字体风格的同种类别文字，常常会产生不一致的预测。本文尝试通过学习风格无关特征，来解决这个问题。具体来说，对于CNN提取的文字图像特征，我们结合字体风格嵌入向量（Font Embedding）和空间注意力机制，来重建同种类别、其他多种风格的标准形态文字，使得CNN学习的特征尽可能地只与本身字符类别有关，与其本身的风格尽可能解耦。同时，我们提出一个新的数据集NFST（Novel Font Scene Text），如图1(b)所示，来验证模型的有效性以及帮助大家更好地测试模型的鲁棒性。

图1 (a) 研究背景 (b) NFST数据集

二、原理简述

图2 模型框架

EFIFSTR的主要模型结构如图2所示，其主要分为如下几个模块：

2.1 CNN 特征提取网络（CNN Feature Extractor）

使用基于ResNet的CNN网络对输入图片

提取特征

。网络结构基于ASTER[1]，但

的高度

不会被下采样到维度是1，目的是为了保留更多的空间信息。

2.2 序列编码器和解码器（Sequence Encoder和Decoder）和注意力模块（Attention Module）

该模块的结构有较多选择，如RNN+1维Attention，RNN+2维Attention，Transformer+2维Attention。这里我们选择的是SAR[2]中所述方案：在编码的每个时刻，

在宽度

方向的每个特征会沿着高度

方向进行池化，然后送入到LSTM 编码器；解码的时刻

，LSTM解码器的隐藏状态

和

一起送入到注意力模块。注意力模块用于计算注意力掩膜矩阵（Attention Mask）：

代表

每个位置特征在时刻相对重要性，其计算方式如下：

其中

；然后，

和

的每个通道的特征进行点乘，得到注意力内容向量

，又称Glimpse向量。

2.3 字符分类

字符分类采用Softmax分类的方法：

2.4 标准字形生成

图3 字形生成网络结构

如图3所示，我们使用基于反卷积的字形生成网络（Glyph Generator），由Glimpse向量和Font Embedding引导，结合多层级CNN特征的跳跃式连接（Skip-connection），来生成不同风格的目标字形：

其中，

是第

种字体的嵌入向量，

。最开始，所有字体的Font Embedding随机初始化，训练过程中使用梯度下降的方法，对它进行不断的优化，使得Font Embedding更加符合字体的风格特征。同时，我们也加入了一个字形辨别器（Glyph Discriminator）对生成的字形和真实的字形进行判别，其给出字形为真的概率为：

2.5 损失函数和优化方式

当不采用对抗训练时，损失函数有两部分构成，分别是交叉熵损失和L1损失：

其中，

是每个训练Step时随机采样的目标字体风格的索引。

当采用对抗训练的时候，我们迭代优化

和

其中是超参数，设为0.01。采用Adam优化器对模型进行优化，初始学习率设置为0.001，每4万步衰减为原来的0.9倍。我们采用Microsoft Typography字体库中325种字体作为实验中的目标字体。

三、实验结果

3.1 学习风格无关特征对注意力效果的改善

图4 学习风格无关特征对注意力效果的改善

图4为学习风格无关特征前后的Attention Mask热力图对比，热力图下面的划线的字母代表某个时刻模型预测的字符标签。以第1组图片为例，学习风格无关特征的模型将注意力集中在花体字“L”的下半部分，并将其正确识别为“L”；而不学习风格无关特征的模型将注意力集中在花体字“L”的上半部分，将其错误识别为“R”。

3.2 对于字体风格新颖文本的识别效果

图5 使用可训练的Font Embedding的识别结果和生成字形展示

3.3识别准确率

我们在NFST数据上对比了我们的方法和ASTER[1]、SAR[2]的准确率，表1结果显示我们的模型具有较大的优势。同时，我们在通用数据集上也具有一定的优势（见表2）。

表1 在NFST数据集上与其他SOTA方法的对比

表2 在通用数据集上与其他现有方法的对比

3.4 字体风格嵌入向量（Font Embedding）的分布图及学习过程

图6 字体风格嵌入向量的分布图及学习过程

图6展示了字体风格嵌入向量的分布图及学习过程，在训练结束时，我们使用PCA（主成分分析）将所有字体风格嵌入向量降为2维坐标，并在每个点坐标上贴上每个字体对应的字符“A”图片；右上角展示了向量值的分布随着训练Step变化的过程。可以看出，向量值的分布在一定训练步数后趋于稳定，最终呈现的分布较好得体现了字体风格特征的分布，即风格越相近的字体，其Embedding在分布图中也越相近。

四、总结

本文针对自然场景文字识别提出了一种风格无关特征学习方法，该方法使用空间注意力机制、可训练的字体风格嵌入向量，来重建不同字体风格的标准字形，使得抽取的场景文本特征尽可能地与自身风格无关。实验结果证明本方法有效地提升了模型对于字体风格的鲁棒性。可改进的方面包括：（1）结合最新的图像生成方法，提升字形生成的效果；（2）使用基于Transformer、BERT的模型，更好地对文字序列进行建模。

五、相关资源

· EFIFSTR论文地址：https://arxiv.org/pdf/2009.07447.pdf

· EFIFSTR开源代码：https://github.com/Actasidiot/EFIFSTR

参考文献

[1] BaoguangShi, Mingkun Yang, Xinggang Wang, Pengyuan Lyu, Cong Yao, and Xiang Bai. 2018.ASTER: An Attentional Scene Text Recognizer with Flexible Rectification. IEEE TPAMI (2018), 1–1.

[2] Hui Li, Peng Wang, Chunhua Shen, andGuyu Zhang. 2019. Show, attend and read: A simple and strong baseline for irregular text recognition. In AAAI, Vol. 33. 8610–8617.

原文作者：Yizhi Wang, Zhouhui Lian∗

撰稿：唐国志

编排：高学

审校：殷飞

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

下载1：何恺明顶会分享

在「AI算法与图像处理」公众号后台回复：何恺明，即可下载。总共有6份PDF，涉及 ResNet、Mask RCNN等经典工作的总结分析

下载2：leetcode 开源书

在「AI算法与图像处理」公众号后台回复：leetcode，即可下载。每题都 runtime beats 100% 的开源好书，你值得拥有！

下载3 CVPR2020

在「AI算法与图像处理」公众号后台回复：CVPR2020，即可下载1467篇CVPR 2020论文

个人微信（如果没有备注不拉群！）

请注明：地区+学校/企业+研究方向+昵称

觉得不错就点亮在看吧