场景文字识别模型梳理

共 1412字，需浏览 3分钟

·

2022-02-09 17:41

STR pipeline

场景文字识别（scene text recognition），简称为STR。最近对STR做了一下调研，相关论文可以记录在scene text recognition papers中。当前流行的各种方法经过抽象和模块化，可以得到文章开头的pipeline图和文章末尾的framework。

具体而言，STR可以分为三个模块Image Rectifier、Image To Feature Sequence、Seq2seq。

Image Rectifier

这个模块隐式地学习如何把文字图像进行矫正，使得模型对于弯曲和视角具备一定的鲁棒性。该模块输入和输出均为图像。该模块是可选项，可要可不要。

Image To Feature Sequence

这个模块将图像映射为一个特征序列，即输入为图像，输出为特征序列。该模块可以使用CNNs、RNNs、self-attention等模块。比如只使用CNNs；或者前半部分CNNs，后半部分RNNs；或者前半部分CNNs，后半部分self-attention；或者各种排列组合。

CNNs部分，可以只使用类似VGG、ResNet这样的backbone，也可以在后面加一个类似于FPN这样的neck对不同satage的特征进行融合。

RNNs部分，一般使用LSTM或者GRU，可以只单向建模，也可以双向建模。

self-attention部分，可以使用简单的non-local或者使用Transformer的encoder。

Seq2seq

这个模块将特征序列转换为文字序列，即输入为特征序列，输出为文字序列。

一般方法有CTC、RNN decoder、transformer decoder，基本上机器翻译使用的方法这里都可以借用。

### 1. Image Rectifier
#### 1.1. STN + TPS
### 2. Image to Feature Sequence
#### 2.1. CNNs
##### 2.1.1. Backbone
###### 2.1.1.1. VGG
###### 2.1.1.2. ResNet
##### 2.1.2. Neck
###### 2.1.2.1. FPN
#### 2.2. RNNs (bidirectional or unidirectional)
##### 2.2.1. LSTM
##### 2.2.2. GRU
#### 2.3. self attention
##### 2.3.1. [non local](https://arxiv.org/abs/1711.07971)
##### 2.3.1. Transformer encoder
### 3. Seq2seq
#### 3.1. [CTC](https://www.cs.toronto.edu/~graves/icml_2006.pdf)
#### 3.2. RNNs
#### 3.2.1. vanilla
#### 3.2.2. equipped with attention module
#### 3.3. Transformer decoder
#### 3.4. [ACE](https://arxiv.org/abs/1904.08364)

原文见我的个人博客场景文字识别模型方法梳理，排版会更好一些。

写于2020-12-18。

浏览 14

点赞

收藏

分享

举报

评论

图片

表情

[cp]所谓的移动警务通，移动端证件识别信息采集是指，使用成熟的OCR文字识别技术，通过手机或者带有摄像头的终端设备对身份证在做视频流扫描识别，提取证件的照片做OCR文字识别，实现提取身份证信息，裁剪头像，并且存入证件信息数据库，不仅集合了身份证识别还包括驾驶证识别，行驶证识别，护照识别、港澳台胞证识别等。优点是：方案成本低，用于智能移动设备，使用环境方便，功能容易扩展。可提供SDK做二次开发（现在可以提供安卓、iOS、私有云、公有云等的证件识别SDK）证件识别应用场景：出租屋证件识别：入住旅客登记流动人口管理：入户普查特种行业：开锁业、家政、中介等行业证件识别登记展会、访

金山云文字识别（KOCR）基于业界领先的深度学习技术，可将图片中的文字内容智能识别为可编辑的文本，支持通用类、票据类、卡证类等多场景的文本识别，支持提供定制化服务，实现信息录入效率的有效提升

印刷文字识别-通用文字识别/OCR文字识别-极速数据

可识别一般的网络图片，返回图片中的文本信息。

文字识别简介

现在电脑、电子书可以帮助我们在网络上搜集资料，但当我们需要的资料在一些有权限的网站无法复制、下载时，大家都采用截图的方式保存资料，那后期这图片上的文字该怎么保存呢，一个字一个字的敲打整理，显然太耗时耗力，这时，OCR图文识别技术出现了，我们可以直接通过图片转文字的方式将文字整理出来。采用OCR文字识别技术实现资料的随时调用和检索，只需将需识别文字的图片上传到文字识别系统即可，对识别结果也可校对，识别速度快，应用这项OCR技术也可减少对史料的损坏以及增加资料的利用率等。OCR图文识别技术，帮助人们解决录入图片文字提取难题。文字识别包括图片OCR文字识别、视频OCR文字识别、场景文字OCR识别等。且支持PDF、BM

Python-文字识别

首先还是要安装tesseract OCR，即Optical Character Recognition，光学字符识别，谷歌开发的，在免费库中还是非常友好的，应用场景比较多，比如在爬取数据时可以识别验证码等，我是因为有一大批扫描文件需要转换成Excel，研究了一下，中间也遇到了很多问题，接下来可以带大家入个门。第一步需要下载tesseract OCR安装包（百度网上很多资源，如果搜到CSDN分析的文章里边的下载地址还是比较靠谱的，如果懒得百度可以后台私信无偿发你），还是注意安装位置，后边要设置环境变量第二步下载语言包，可以搜索已经训练好的现成的语言包（GitHub官方搜索下载，如果下载不下来可以百度或者后台私信无偿

darknet-ocr中文自然场景文字检测及识别

darknet-ocr 是基于 darknet 框架，实现 CTPN 版本自然场景文字检测与 CNN

darknet-ocr中文自然场景文字检测及识别

darknet-ocr是基于darknet 框架，实现CTPN版本自然场景文字检测与CNN+CTCOCR文字识别的项目。目前支持系统：mac/ubuntupython=3.6实现功能[x]文字方向检测

印刷文字识别-银行卡识别/OCR文字识别-极速数据

通过POST上传base64格式的图片内容，可识别图片中的银行卡号、银行卡类型、银行名称等信息。

印刷文字识别-驾驶证识别/OCR文字识别-极速数据

印刷文字识别-行驶证识别/OCR文字识别-极速数据

行驶证图片文件 POST上传(支持传base64格式的图片内容)，返回车牌、车辆类型、车型、所有人、车架号、发动机号等信息