[ACM MM 2020] EFIFSTR: 基于字体风格无关特征学习的场景文本识别(有源码)

共 3381字,需浏览 7分钟

 ·

2020-12-27 23:11

点击上方AI算法与图像处理”,选择加"星标"或“置顶

重磅干货,第一时间送达

本文简要介绍ACM Multimedia 2020录用论文:“Exploring Font-independent Features for Scene Text Recognition”的主要工作。该工作旨在对场景文字图片提取字体风格无关特征,从而增强文本识别模型对文字风格的鲁棒性。

一、研究背景


如图1(a) 所示,现有的场景文字识别模型对于字体风格的鲁棒性不佳,面对不同字体风格的同种类别文字,常常会产生不一致的预测。本文尝试通过学习风格无关特征,来解决这个问题。具体来说,对于CNN提取的文字图像特征,我们结合字体风格嵌入向量(Font Embedding)和空间注意力机制,来重建同种类别、其他多种风格的标准形态文字,使得CNN学习的特征尽可能地只与本身字符类别有关,与其本身的风格尽可能解耦。同时,我们提出一个新的数据集NFSTNovel Font Scene Text),如图1(b)所示,来验证模型的有效性以及帮助大家更好地测试模型的鲁棒性。 

图1 (a) 研究背景 (b) NFST数据集

二、原理简述


2 模型框架
EFIFSTR的主要模型结构如图2所示,其主要分为如下几个模块:
2.1 CNN 特征提取网络(CNN Feature Extractor
使用基于ResNetCNN网络对输入图片提取特征。网络结构基于ASTER[1],但的高度不会被下采样到维度是1,目的是为了保留更多的空间信息。
2.2  序列编码器和解码器Sequence EncoderDecoder)和注意力模块(Attention Module
该模块的结构有较多选择,如RNN+1AttentionRNN+2AttentionTransformer+2Attention。这里我们选择的是SAR[2]中所述方案:在编码的每个时刻,在宽度方向的每个特征会沿着高度方向进行池化,然后送入到LSTM 编码器;解码的时刻LSTM解码器的隐藏状态一起送入到注意力模块。注意力模块用于计算注意力掩膜矩阵(Attention Mask):

代表每个位置特征在时刻相对重要性,其计算方式如下:

其中;然后,的每个通道的特征进行点乘,得到注意力内容向量,又称Glimpse向量。
2.3   字符分类
字符分类采用Softmax分类的方法:

2.4   标准字形生成

3  字形生成网络结构
如图3所示,我们使用基于反卷积的字形生成网络(Glyph Generator),由Glimpse向量和Font Embedding引导,结合多层级CNN特征的跳跃式连接(Skip-connection),来生成不同风格的目标字形:

其中,是第种字体的嵌入向量,。最开始,所有字体的Font Embedding随机初始化,训练过程中使用梯度下降的方法,对它进行不断的优化,使得Font Embedding更加符合字体的风格特征。同时,我们也加入了一个字形辨别器(Glyph Discriminator)对生成的字形和真实的字形进行判别,其给出字形为真的概率为:

2.5   损失函数和优化方式
当不采用对抗训练时,损失函数有两部分构成,分别是交叉熵损失和L1损失:

其中,是每个训练Step时随机采样的目标字体风格的索引。
当采用对抗训练的时候,我们迭代优化:

其中是超参数,设为0.01。采用Adam优化器对模型进行优化,初始学习率设置为0.001,每4万步衰减为原来的0.9倍。我们采用Microsoft Typography字体库中325种字体作为实验中的目标字体。

三、实验结果


3.1    学习风格无关特征对注意力效果的改善

4 学习风格无关特征对注意力效果的改善 
4为学习风格无关特征前后的Attention Mask热力图对比,热力图下面的划线的字母代表某个时刻模型预测的字符标签。以第1组图片为例,学习风格无关特征的模型将注意力集中在花体字“L”的下半部分,并将其正确识别为“L”;而不学习风格无关特征的模型将注意力集中在花体字“L”的上半部分,将其错误识别为“R”
3.2    对于字体风格新颖文本的识别效果

图5 使用可训练的Font Embedding的识别结果和生成字形展示 
3.3识别准确率
        我们在NFST数据上对比了我们的方法和ASTER[1]SAR[2]的准确率,表1结果显示我们的模型具有较大的优势。同时,我们在通用数据集上也具有一定的优势(见表2)。
1  NFST数据集上与其他SOTA方法的对比

在通用数据集上与其他现有方法的对比
3.4        字体风格嵌入向量(Font Embedding)的分布图及学习过程

6 字体风格嵌入向量的分布图及学习过程

6展示了字体风格嵌入向量的分布图及学习过程,在训练结束时,我们使用PCA(主成分分析)将所有字体风格嵌入向量降为2维坐标,并在每个点坐标上贴上每个字体对应的字符“A”图片;右上角展示了向量值的分布随着训练Step变化的过程。可以看出,向量值的分布在一定训练步数后趋于稳定,最终呈现的分布较好得体现了字体风格特征的分布,即风格越相近的字体,其Embedding在分布图中也越相近。 

四、总结


本文针对自然场景文字识别提出了一种风格无关特征学习方法,该方法使用空间注意力机制、可训练的字体风格嵌入向量,来重建不同字体风格的标准字形,使得抽取的场景文本特征尽可能地与自身风格无关。实验结果证明本方法有效地提升了模型对于字体风格的鲁棒性。可改进的方面包括:(1)结合最新的图像生成方法,提升字形生成的效果;(2)使用基于TransformerBERT的模型,更好地对文字序列进行建模。

五、相关资源


 
·     EFIFSTR论文地址:https://arxiv.org/pdf/2009.07447.pdf

·     EFIFSTR开源代码:https://github.com/Actasidiot/EFIFSTR 

参考文献


[1] BaoguangShi, Mingkun Yang, Xinggang Wang, Pengyuan Lyu, Cong Yao, and Xiang Bai. 2018.ASTER: An Attentional Scene Text Recognizer with Flexible Rectification. IEEE TPAMI (2018), 1–1.

[2] Hui Li, Peng Wang, Chunhua Shen, andGuyu Zhang. 2019. Show, attend and read: A simple and strong baseline for irregular text recognition. In AAAI, Vol. 33. 8610–8617. 

 

原文作者Yizhi Wang,  Zhouhui Lian∗
撰稿:唐国志
编排:高 学

审校:殷 飞

发布:金连文



免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 


下载1:何恺明顶会分享


AI算法与图像处理」公众号后台回复:何恺明,即可下载。总共有6份PDF,涉及 ResNet、Mask RCNN等经典工作的总结分析


下载2:leetcode 开源


AI算法与图像处理」公众号后台回复:leetcode,即可下载。每题都 runtime beats 100% 的开源好书,你值得拥有!



下载3 CVPR2020

AI算法与图像处公众号后台回复:CVPR2020即可下载1467篇CVPR 2020论文
个人微信(如果没有备注不拉群!
请注明:地区+学校/企业+研究方向+昵称


觉得不错就点亮在看吧


浏览 28
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报