一篇包罗万象的场景文本检测算法综述-技术圈

加入极市专业CV交流群，与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流！
同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。关注 极市平台 公众号，回复 加群，立刻申请入群~

就在明天，极市直播第64期：非受控环境下的表情识别。来自中国科学院深圳先进技术研究院的彭小江副研究员和王锴将为我们介绍分享自注意力策略在这些问题上的两个探索工作，详情点这里。在极市平台后台回复“64”，即可获取直播链接。

作者｜张俊怡，中山大学计算机技术硕士

来源｜MoonSmile@知乎，https://zhuanlan.zhihu.com/p/85545272

本文将介绍以下几部分‍‍‍‍

一、配置Docker环境

为什么要特意提一下Docker，当然是因为这东西挺有意思，可以帮助我们高效的做项目! 接下来就来看看，什么是Docker吧。

做深度学习项目时，配环境是一件很让人头疼的事情，尤其是当你要跑别人代码时,自己的环境跟别人的环境不一致,就会出现各种bug，这就是所谓的生产环境(别人的环境)跟测试环境不一致(你的环境)，那么，我们可以想象，如果现在有一种工具,可以把别人的环境克隆一份，放到自己电脑上，然后自己用这个环境，岂不就不会出现环境不一致的问题啦，美滋滋。

那么,有没有这种工具呢？答案是有的，这个工具就是Docker。

第一步，想要用docker，首先就要安装docker在我们的计算机上，安装docker教程如下:

跟着教程复制粘贴命令就行了~

https://docs.docker.com/install/linux/docker-ce/ubuntu/

第二步，安装好了docker，得学学怎么用docker，类似于git，在Linux上可用命令可以操作:

先学习一下docker里边的基本概念，再学习一下基本命令(如果pull下一个镜像,如果run等等)，参考资料如下:

https://blog.csdn.net/fgf00/article/details/51893771

蝈蝈：Docker，救你于「深度学习环境配置」的苦海，https://zhuanlan.zhihu.com/p/64493662

二、介绍多种文本检测算法

1、CTPN (Detecting Text in Natural Image with Connectionist Text Proposal Network) ECCV 16

这篇论文的亮点是结合了CNN与双向LSTM，能有效的检测出复杂场景的横向分布的文字, 在当时也算是开坑之作。

总的来说，该算法的重点部分有三个：

1、在网络上改进，似的提取的特征能够在双向LSTM中使用。

2、使用了双向LSTM。

3、采用了一组（10个）等宽度，不同高度的的Anchors，用于定位文字位置。

4、采用文本线构造算法，把这些text proposal连接成一个文本检测框。

这篇论文的细节内容知乎上已经有大佬写的很好了，我就不重复搬砖了，可参考：

白裳：场景文字检测—CTPN原理与实现（https://zhuanlan.zhihu.com/p/34757009）

但是我还是要把这篇文章的实验结果搬出来，这样后续的文章可以跟他比较~

实验结果：

总结分析:

现在来看这算法已经挺老了,缺点很明显,只能检测横向或者纵向(改anchor比例后可检测纵向)的文本, 但是不能检测其他方向, 并且在精度上也落后了.

Github 开源代码：

https://github.com/eragonruan/text-detection-ctpn

2、EAST (EAST: An Efficient and Accurate Scene Text Detector) CVPR 17

这篇论文提出了一种端到端的快速有效的文本检测方法，消除了中间多个stage(如候选区域聚合，文本分词，后处理等)，直接预测文本行，从下图中可看出，EAST的 pipeline（e）最为简洁。

EAST pipeline与其他框架pipline对比

论文亮点：

提出了一种基于两阶段的端到端的快速有效的文本检测方法（借鉴了DenseBox和FCN）,不熟悉DenseB。

ox的可以看看这篇文章中对其的介绍。

陀飞轮：目标检测：Anchor-Free时代

即可以检测单词级别，又可以检测文本行级别．检测的形状可以为任意形状的四边形(QUAD)或倾斜矩形 (RBOX)。

采用了Locality-Aware NMS来对生成的框进行过滤。

网络部分：

这个网络的基本结构是以2015年发表的DenseBox中的网络为基础构建的。基于上述主干特征提取网络，抽取不同level的feature map,然后上借鉴U-net的合并规则进行合并。

输出是稠密的每个像素对于文本的预测信息。我们以RBOX为例，网络输出的通道数应为6（1个为score map，4个为文本框的坐标信息，1个为角度）。我们预测的几何形状分为RBOX和QUAD（输出为9维，包括8个坐标，一个score map）两种，在后面为每一种也相应设计了不同的loss值。其中score所代表的含义是在该像素位置预测的目标的可信度，其值为[0, 1]。在最后我们会将score值大于我们所设计的阈值的预测框留下来，并进行NMS获取最终结果[10,21,22]。

标签的生成：

要对网络进行训练，就要有标签，让我们预测的结果和标签进行对比，然后通过不断优化参数，最终得到我们想要的网络。

Score map 标签的产生：根据论文的描述，我们Score map的正样本的范围，其实就是在图片中我们标注框的一个缩进框，如下图的（a）到（b）所示，具体的公式请看原论文 [10]。

Geometry Map 标签产生：不详细说明，请参照原论文 [10]。

损失函数:

由Score map 和 Geometry Map 两部分产生的损失加权组成。

loss

对Score map 采用了class-balanced cross-entropy，如下：

class-balanced cross-entropy

是平衡因子，计算公式如下 (是标签，Ŷ 是预测的Score map）：

平衡因子

对Geometry Map计算损失：“we adopt the IoU loss in the AABB part of RBOX regression, and a scale-normalized smoothed-L1 loss for QUAD regression”[10]

这里只以RBOX为例说明：

IoU loss 部分：

IoU loss

loss of rotation angle：

loss of rotation angle

Geometry Map loss 总和：

Geometry Map loss 总和

Locality-aware NMS：

与标准的NMS相比，主要在于多了一个合并阶段。迭代两两候选框，如果两个候选框高于某个权值，进行一个加权的合并操作，合并完再做一个标准的NMS [21,22]。

实验结果：

从实验结果中可以看出，这篇文章比14和15年的一些算法在精度上要高出很多。

总结分析:

优点:用了特征图多尺度融合,所以可检测不同尺度的文本区域, 预测的文本框是带角度的,所以可以对任意方向的文本进行检测.

缺点:由于感受野和anchor大小的限制, 对长文本和曲线文本检测困难.

Github 开源代码：

https://github.com/argman/EAST

https://github.com/huoyijie/AdvancedEAST

https://github.com/songdejia/EAST

3、SegLink (Detecting Oriented Text in Natural Images by Linking Segments) CVPR 17

从EAST算法中可以知道, 检测长文本是比较困难的, 或者说,想要一次性检测整个文本行是比较困难, 针对这个问题, 本文提出了一种新的思想Seglink (segment + link)，它是在SSD目标检测方法的基础上进行改进的,但是不通过矩形框来回归文本区域的位置.

Seglink模型的做法是: 先将每个单词切割成更易检测的有方向的小文字块(segment)，然后用邻近连接将各个小文字块link成单词。

也就是说,网络会输出两类信息:

1、一个是segment，它可能是一个字符或者几个字符等, 它不是整个文本行的框，而是文本行的一部分, 这个信息是带有角度的，如下图的黄框表示。

2、另一个是不同segment之间的link信息，而这个link也是在网络中自动学习的，由网络判定哪些segment属于一个文本行，由下图的绿线表示。

网络结构:

对segments的预测：２个segment score和５个geometric offsets为**

default box: 本文每个feature map的每个位置只采用了一个aspect ratio=1的default box，而SSD中是一系列(1, 2, 3, 1/2, 1/3).

default box scale size: 本文的是根据当前层的感受野来进行设置scale size，而SSD是通过人工设定的.

对于link的预测包括同层(within-layer link)的和跨层(cross-layer link)的两种:

对于conv4_3层，对于feature map的每个位置需要预测其link输出的维度为2*8(文中对feature map中每个位置只预测一个segment,所以8就是当前层8邻域)=16；对于conv7, conv8_2, conv9_2, conv10_2, conv11其输出的link维度为2*8(8是当前层8邻域)+2*4(4是上一层4邻域)=24

主框架

within-layer link 和cross-layer link 可视化图

网络最后总共输出通道数为31,如下图:

网络最后总共输出通道数

Combining Segments with Links算法

预测出Segment 和 Link 之后,需要用一种算法将预测出的Segments组合起来或者叫连接起来.

作者的算法是:首先通过人工设定的 α 和β(这两个值是采用网格搜索找到最优)，对网络预测的segments和links进行滤除. 然后将每个segment看成node，link看成edge，建立图模型，再用DFS(depth first search)找到连通分量，每个连通分量包含一系列segments(用B表示).

最后,输出连接segments后的文本框的算法如下:

连接segments成一个框

损失函数:

包含三部分,segment classification loss (softmax)，offsets regression loss (L1 regression)，link classification loss (softmax).

实验结果:

总结分析:

缺点: 间隔较大的文字块不能检测出来，比较link只是针对邻域的.

Github 开源代码：

https://github.com/dengdan/seglink

https://github.com/bgshih/seglink

4、TextBoxes (TextBoxes: A Fast Text Detector with a Single Deep Neural Network) AAAI 17

这篇文章的主要贡献提出了一个快速而精确的文本检测器，叫做TextBoxes，也是在SSD的基础上进行改进的。

相对SSD的改变如下四点：

1、修改了default box的apect ratio，分别为[1 2 3 5 7 10]，变成长条状。

2、修改classifier卷积核的大小为1*5，而SSD中卷积核的大小为3*3，这样更适合文本检测。

3、提出了一个端到端的训练框架．在测试的时候，输入图像由单尺度变成了多尺度。

4、利用识别来调整检测的结果。

主框架

TextBoxes是一个28层的全连接卷积网络，从主框架中可以看出，使用了1*5的卷积核，在每一个特征位置，预测一个72维的向量，因为每一个特征位置会有12个默认框（12个框怎么来的呢，首先有6种比例就有六个框，但是论文中指出了，为了防止水平方向的框太过密集，而垂直方向稀疏，所以每个默认框都设有一个垂直方向的偏移，相当于框的数量翻了一倍，如下下图默认框图所示）。72维（12*2+12×4）包括文本出现的得分（2维）和12个默认盒子的偏移（offsets）（4层）。

默认框图，这里只展示了两种比例（1和5的）

损失函数：见下文TextBoxes++，与其相同。

实验数值结果

实验效果图，包含成功案例和失败案例

分析总结:

不能检测任意方向文本块.

Github 开源代码：

https://github.com/gxd1994/TextBoxes-TensorFlow

https://github.com/shinjayne/shinTB

5、R2CNN (R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection) CoRR 17

这篇文章提出了一种旋转区域CNN (Rotational Region CNN，R2CNN)，用于检测自然场景图片中任意方向的文本框，当然这种方法并不局限于斜框文字检测，也可以用在其他领域。

倾斜四边形如何表示，下边这边文章中写的比较清楚了，这篇文章用矩形的两个坐标点和矩形的高(x1,y1,x2,y2,h)来表示：

stone：基于Faster RCNN的斜框检测：R2CNN

https://zhuanlan.zhihu.com/p/41662351

网络架构：

主框架

第一步：通过RPN网络，得到正框的Proposal，并且把anchor的大小从(8,16,32)改为(4,8,16,32) 或 (4,8,16)，论文里说了，将anchor调小对检测是有帮助的。

第二步：ROIPooling，使用了不同pooled size (7 × 7, 11 × 3, 3 × 11) 的 ROIPooling，将三种结果concate在一起，再经过fc6，fc7进行正框预测，斜框预测以及分类预测，之后，再通过斜框的NMS进行后处理。

作者在论文里指出，每一个倾斜框都跟一个正框相关联，如下图中的（a）与（c）,之所以既要对正框预测，又要对斜框预测，作者认为这能提升实验的效果。

斜NMS

斜NMS算法参考Arbitrary-Oriented Scene Text Detection via Rotation Proposals

损失函数：

包含分类损失和回归损失，回归损失又包含正框和斜框两部分。

loss

实验结果：

在精度上超过EAST和Seglink.

在不同参数设定下，R2CNN的结果比较

在ICDAR 2015数据集上的实验结果

在ICDAR 2013数据集上的实验结果

在ICDAR 2013数据集上的实验结果，作者认为效果没有超过sota的原因是由于他们使用的训练数据不包含单个字符，如果包含，将可能会超过sota。

总结分析:

对斜的小的目标可能效果好一点

Github 开源代码：

https://github.com/yangxue0827/R2CNN_FPN_Tensorflow

https://github.com/DetectionTeamUCAS/R2CNN_Faster-RCNN_Tensorflow

6、TextBoxes++ (TextBoxes++: A Single-Shot Oriented Scene Text Detector) TIP 18

从论文名字就可以看出，TextBoxes++是对TextBoxes的改进。

主框架

相对TextBoxes的改变如下：

1、对文本框的表示方式进行了改进。

在TextBoxes中，default box 是水平的框，不能检测倾斜的文字。论文中讨论了两种表示方式：分别是4个点坐标（x1,y1,x2,y2,x3,y3,x4,y4）（四边形）和两个点的坐标外加四边形的高（x1,y1,x2,y2,h）（倾斜矩形）。但论文推荐使用四个坐标的表示方式。

四边形和矩形表示的计算方法如下：

四边形和矩形表示的计算方法

其中（x0,y0）是default box的中心点，(w0,h0)是default box的宽度和高度。

在每个feature map后的text-box layer将预测每个box上的文本存在概率以及位置偏置，以倾斜矩形为例，其预测输出为：

预测输出

根据预测输出，计算检测框的坐标和高度，公式如下（倾斜矩形形式）：

计算坐标和高度

从默认框回归的过程

在TextBoxes++中，也为文本设置了垂直偏移，使得默认框在垂直方向密集，如下图所示，没有垂直偏移的只有黑色虚线框，就会漏掉很多连续的垂直方向文本。黄色虚线框是加入了垂直偏移后的，文本信息都被包围了进去（本人觉得这里的作图太过于刻意了，说服力并不是很强）。

垂直偏移

损失函数包含预测得分和预测定位两部分损失（与TextBoxes相同）：

loss

其中，N是与GT匹配的default boxes数量，_α_设为0.2，对于分类用两分类sotmax，对于定位用smooth L1。

此外，文章还用了On-line hard negative mining、数据增强、多尺度训练、有效级联NMS等技巧。

实验结果：

从ICDAR和COCO-text的实验数值上对比可以看出，这篇18年的文章已经完全干掉了17年的 EAST。

四边形与倾斜矩形对比

可视化结果

分析总结:

对TextBoxes 不能检测任意方向文本块的缺点进行了改进,其精度已经完全干掉了头一年的EAST.

Github 开源代码：

https://github.com/Shun14/TextBoxes_plusplus_Tensorflow

https://github.com/MhLiao/TextBoxes_plusplus

7、FOTS (FOTS: Fast Oriented Text Spotting with a Unified Network) CVPR 18

与前面几篇只是检测部分的不一样，这篇论文是一个集合了文本检测跟文字识别两部分的一个统一的端到端的框架，可同时对图像中的文字进行检测跟识别。

之前的大部分方法都是将检测跟识别当做两个独立的任务去做，先检测，再识别。这篇论文提出的框架处处是可微的，所以可以对其进行端到端的训练，结果表明，该网络无需复杂的后处理和高参数整定，易于训练，并且在保证精度的前提下大大提高速度，如下图所示：

可以看出，本文提出的统一的框架要比两阶段的方法快

论文的主框架如下：

主框架

FOTS的整体结构由 shared convolutions，the text detection branch，RoIRotate operation，the text recognition branch 4部分组成。

Shared Convolutions：

FOTS的基础网络结构为Resnet50，共享卷积层采用了类似U-net的卷积的共享方法，将底层和高层的特征进行了融合。这部分和EAST中的特征共享方式一样。最终输出的特征图大小为原图的1/4，如下图所示：

shared convolutions

Text Detection Branch：

该模块和EAST一样，采用了FCN作为文本检测器，损失包含分类的loss（cross entrop）和坐标的回归的loss（IOU loss+角度loss）,公式如下：

RoIRotate：

RoiRotate将变换应用于定向特征区域（有角度的），以获得轴对齐的特征映射，如下图所示：

特征区域角度变换

RoiRotate计算公式如下：

M是放射矩阵，包含旋转，缩放，平移

使用变换参数，可以使用仿射变换轻松生成最终的roi特征：

这里的几个公式涉及到很多参数的概念，涉及到双线性插值，更具体的含义请看论文

:仿射变换矩阵，包含旋转，缩放，平移

:仿射变换后的特征图的高度，实验中为8

:仿射变换后的特征图的宽度

:特征图中的点的坐标

:特征图中的点距离旋转的框的上下左右的距离

:检测框的角度

:在位置（i,j），通道c处的输出值。

:在位置（n,m），通道c处的输入值。

:输入的高度

:输入的宽度

总之，经过变换之后，我们可以获得变换后的特征图，然后将该特征图输入到 Text Recognition Branch进行识别。

Text Recognition Branch：

这个分支使用共享卷基层的特征和变换后的特征来识别文字，其结构类似CRNN结构，使用了类似VGG的顺序卷积，一个双向LSTM，最后再接CTC解码器，对CRNN和CTC不熟悉的可先看：

白裳：一文读懂CRNN+CTC文字识别

https://zhuanlan.zhihu.com/p/43534801

Text Recognition Branch Structure

实验结果：

精度上可以说是很不错了

On ICDAR 2015

On ICDAR 2017

On ICDAR 2013

速度和模型大小比较

总结分析:

精度高,速度相对也比较快

Github 开源代码：

https://github.com/jiangxiluning/FOTS.PyTorch

https://github.com/xieyufei1993/FOTS

https://github.com/Pay20Y/FOTS_TF

8、PixelLink (PixelLink: Detecting Scene Text via Instance Segmentation) AAAA 18

通过前边的文章我们可以发现，对文本的检测大都采用边框回归的思想来做，而这篇文章提出了不一样的方法，文章提出采用实例分割的方法分割出文本行区域，然后直接找对应文本行的外接矩形框，这样就实现了对文本的检测。

但是，通常文本之间挨得很近，很难将他们分割开来，如图所示：

接下来我们就看看这篇文章是如何做的......

框架结构：

主干网络是沿用了SSD网络结构，用VGG16作为base net，并将VGG16的最后两个全连接层改成卷积层；

论文中给出了两种网络结构：PixelLink+VGG16 2s （特征图大学下降为原图的1/2）和PixelLink+VGG16 4s （特征图大小下降为原图的1/4）。

主框架

1、提取不同层的feature map，对于PixelLink+VGG16 2s网络结构：提取了conv2_2, conv3_3, conv4_3, conv5_3, fc_7．

2、对已提取的特征层，采用自顶向下的方法进行融合，融合操作包括先向上采样，然后再进行add操作．注意：这里包含了两种操作：pixel cls和pixel link（文本/非文本预测和Link预测），所以对应的卷积核个数分别为２和16 。注意，fc6和fc7，被转换为卷积层。

网络结构

连接像素：

到这一步，我们已经得到了文本/非文本预测和Link预测，设定两个阈值（一个用于像素分类，一个用于像素链接），可以得到pixel positive集合和link positive集合。然后根据link positive将pixel positive进行连接，得到CCs(conected compoents)集合（数字图像处理中连通分量的概念），集合中的每个元素代表的就是文本实例。

注意：给定两个相邻的pixel positive，它们之间的link预测是由当前两个pixel共同决定的，两个link中至少有一个是link positive。连接的规则采用的是Disjoint set data structure(并查集)的方法。

外接矩形：

直接使用Opencv里边的minAreaRext提取文本的带方向信息的外接矩形框。

后期处理：

在链接的过程可能引入噪声，加入后期处理阶段，可以通过矩形的长、宽、面积、长宽比信息等将一些明显的错的区域过滤掉，以提高检测精度。

损失函数：

网络的损失函数包含两个部分：pixels loss和links loss：

loss

损失函数的具体内容在此不展开讨论，除了在损失函数上进行的设计，作者还借鉴了SSD里边的数据增强的方法，具体的pixel loss 跟link loss如何设计以及如何生成训练数据的ground truth可参考大佬写的（我只是个搬运工）：

燕小花：文本检测之PixelLink

https://zhuanlan.zhihu.com/p/38171172

实验结果：

从数值结果从可以看出，确实比EAST强，但是好像没有比Seglink强太多。

总结分析：

优点：无需在imagenet上预训练.

缺点：跟Seglink一样，间隔较大的文字块不能检测出来.

Github 开源代码：

https://github.com/ZJULearning/pixel_link

https://github.com/cheerss/PixelLink-with-pytorch

9、PSENet (Shape Robust Text Detection with Progressive Scale Expansion Network) CVPR 19

文章的目的是要解决弯曲文字检测的问题,如下图所示,对于弯曲文字,现有方法存在较大的问题.

b中容易重叠，c中误把多个实例识别成一个实例

作者认为现在的文本检测主流方法可以分成 regression-based 和 segmentation-based 两类,本文提出来的方法属于segmentation-based .

论文的三大特点:

1、Segmentation-based方法能很好地解决任意形状文本区域检测这个问题，因为语义分割可以从像素级别上分割文字区域和背景区域.

2、对于如何分离靠的很近的文字块,如上图 (c) 所示,不能将他们分割开. 一个直观的想法是增大文字块之间的距离，使它们离得远一点。基于这个思路，论文引入了新的概念 kernel.

3、有了kernel的概念, 作者通过一种基于广度优先搜索的渐进扩展算法来构建完整的文字块。这个方法的核心思想是：从每个kernel出发，利用广度优先搜索来不断地合并周围的像素，使得kernel不断地扩展，最后得到完整的文字块。

下面就来看看这些特点具体是如何做的......

Pipeline :

框架的主干网络是FPN，一张图片通过FPN可以得到四个Feature Map ( ），然后通过函数合并这四个特征图( )得到 .

pipeline

的具体公式如下：

其中, || 代表 concatenation, U代表上采样。

接着，通过来预测不同kernel scale的分割图。其中是最小kernel scale的分割图，里面不同的连通区域都可以看作不同文字块的“kernel”。是最大kernel scale的分割图，是个完整的文字快。最后通过一个渐进扩展算法（Progressive Scale Expansion）去不断地扩展中的每个“kernel”.[1]

渐进扩展算法（Progressive Scale Expansion）:

Progressive Scale Expansion

该算法的输入是, 在上图中以n=3为例, CC 代表寻找连通分量的操作, 对着上图来分析:

1、首先，对求连通区域，得到不同文字块的“kernel”。

2、然后，通过 (g)所示的扩展操作合并中的文字像素，得到扩展后的结果 (c)。最后，使用同样的扩展操作合并中的文字像素，得到最后的文字块(d)。

3、(g)所示的扩展操作是基于广度优先搜索实现的。

我们可以把(g) 操作放大:

在边界上有些像素点会混淆,不知道该属于那个kernel, 在实践中，处理冲突的原则是，混淆的像素可以在先到先得的基础上由一个内核合并。

标签生成 (Label Generation) :

使用 Vatti clippingal gorithm 参考论文 generic solution to polygon clipping. 来生成不同核尺度的标签.

Label Generation

损失函数和网络结构细节:

在此不细讲,请参考原文：Shape Robust Text Detection with Progressive Scale Expansion Network

实验结果:

总结分析:

总实验数值结果可以看出,其检测精度效果好,但是速度慢.

Github 开源代码：

https://github.com/liuheng92/tensorflow_PSENet

https://github.com/WenmuZhou/PSENet.pytorch

https://github.com/liuheng92/tensorflow_PSENet

三、文本检测算法demo运行展示

暂时略, 后续会补上。

参考文献

1.whai362：大白话《Shape Robust Text Detection with Progressive Scale Expansion Network》

2.https://zhuanlan.zhihu.com/p/68058851

3.Shape Robust Text Detection with Progressive Scale Expansion Network

4.PixelLink: Detecting Scene Text via Instance Segmentation

5.FOTS: Fast Oriented Text Spotting with a Unified Network

6.TextBoxes++: A Single-Shot Oriented Scene Text Detector

7.R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection

8.TextBoxes: A Fast Text Detector with a Single Deep Neural Network

9.Detecting Oriented Text in Natural Images by Linking Segments

10.EAST: An Efficient and Accurate Scene Text Detector

11.Detecting Text in Natural Image with Connectionist Text Proposal Network

12.文本检测模型综述

13.文本检测之SegLink

14.文本检测之PixelLink

15.基于Faster RCNN的斜框检测：R2CNN

16.FOTS：使用统一网络进行快速定向文本定位

17.一文读懂CRNN+CTC文字识别

18.文字检测+识别之FOTS

19.OCR技术简介

20.场景文字检测—CTPN原理与实现

21.EAST：An Efficient and Accurate Scene Text Dectector 论文笔记

22.文本检测之EAST

23.TextBoxes++论文解读

24.论文笔记：TextBoxes: A Fast Text Detector with a Single Deep Neural Network

25.自然场景下的文字检测：从多方向迈向任意形状

26.场景文字检测—CTPN原理与实现

27.目标检测之模型篇（8）【TextBoxes/TextBoxes++】

28.自然场景下的文本检测与定位

推荐阅读

Vedastr：基于PyTorch的场景文本识别工具箱
时隔一年，盘点CVPR 2019影响力最大的20篇论文
51篇最新CV领域综述论文速递！涵盖14个方向：目标检测/图像分割/医学影像/人脸识别等方向

添加极市小助手微信（ID : cv-mart），备注：研究方向-姓名-学校/公司-城市（如：目标检测-小极-北大-深圳），即可申请加入极市技术交流群，更有每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、行业技术交流，一起来让思想之光照的更远吧~

△长按添加极市小助手

△长按关注极市平台，获取最新CV干货

觉得有用麻烦给个在看啦~

一篇包罗万象的场景文本检测算法综述

相关背景介绍

本文将介绍以下几部分‍‍‍‍