mileistone
0获赞0粉丝0关注
场景文字识别模型梳理
STR pipeline
场景文字识别(scene text recognition),简称为STR。最近对STR做了一下调研,相关论文可以记录在scene text recognition papers中。当前流行的各种方法经过抽象和模块化,可以得到文章开头的pipeline图和文章末尾的framework。
具体而言,STR可以分为三个模块Image Rectifier、Image To Feature Sequence、Seq2seq。
IMAGE RECTIFIER
这个模块隐式地学习如何把文字图像进行矫正,使得模型对于弯曲和视角具备一定的鲁棒性。该模块输入和输出均为图像。该模块是可选项,可要可不要。
IMAG
mileistone
0
新视角:用图像分类来建模文字识别也可以SOTA
我们最近做了一个文字识别的工作:CSTR: A Classification Perspective on Scene Text Recognition,简单介绍如下。
当前文字识别有两种建模视角:seq2seq-based和segmentation-based。
seq2seq-based的方法首先将图片encode为特征序列(比如CNN、RNN、Transformer encoder或者它们的组合),然后对特征序列进行decode(比如CTC、RNN、attention based RNN、Transformer decoder等)。
segmentation-based的方法首先定位出字符的位置,然后识别出各个位置的字符
mileistone
0