评论
图片
表情
视频
全部评论
场景文字识别模型梳理
STR pipeline
场景文字识别(scene text recognition),简称为STR。最近对STR做了一下调研,相关论文可以记录在scene text recognition papers中。当前流行的各种方法经过抽象和模块化,可以得到文章开头的pipeline图和文章末尾的framework。
具体而言,STR可以分为三个模块Image Rectifier、Image To Feature Sequence、Seq2seq。
IMAGE RECTIFIER
这个模块隐式地学习如何把文字图像进行矫正,使得模型对于弯曲和视角具备一定的鲁棒性。该模块输入和输出均为图像。该模块是可选项,可要可不要。
IMAG
mileistone
0