手写中文文本识别：一种无需切分标注的方法-技术圈

本文简要介绍2022年1月发表于TMM的论文“Recognition of Handwritten Chinese Text by Segmentation: A Segment-annotation-free Approach”的主要工作。该工作针对手写中文文本识别问题，提出了一种基于单字切分的方法。该方法无需真实数据的单字切分标注，即可训练模型得到手写中文文本行的单字切分和文本识别结果。实验证明该方法在多个场景下的联机和脱机手写中文文本识别任务上取得了目前最佳的识别准确率。同时，该方法的推理速度也大幅超过目前流行的基于CTC及Attention的方法。此外，该方法在场景中文识别任务中也达到了高于CTC及Attention方法的识别性能。

一、背景

联机和脱机手写中文文本识别是一个极具实际应用价值的研究方向。早期的方法通常采用基于过切分的策略，将输入的数据切分为多个过切分块，再通过最佳路径搜索算法得到单字切分和识别结果，但是这种方法的速度较慢、准确率较低且需要成本高昂的单字切分标注。最近，基于CTC或Attention的无切分的方法成为手写中文文本识别领域的主流。但是在实际生活中，特别是对于中文这种象形文字，人们仍然会先区分出每个方块字再逐字阅读。因此，文章中提出疑问：无切分的方法是否是最适合中文文本识别的方法？基于这一问题，文章中提出了一种新型的基于切分的手写中文文本识别方法。该方法通过一个简单有效的全卷积网络实现，具有超过现有CTC/Attention方法的推理效率。同时，文章提出了一种弱监督学习方法，使得该方法仅需文本标注，无需单字切分标注即可训练。此外，文章还提出了一种语义正则化方法，用于在全卷积网络中嵌入语义信息。实验证明该方法在多个联机和脱机手写中文文本数据集以及场景中文文本数据中取得了最佳的识别指标。

二、方法

2.1 算法框架

图1 方法的整体结构图

该方法的整体框架如图1所示。输入的文本图片（或联机数据的脱机表示形式）经过编码器后分为三个分支，分别预测字符定位、字符边界框和字符类别。因为上述网络通过全卷积的方式实现，所以无法建模上下文语义信息。因此，训练过程中，通过语义正则化（ConR）引导网络在提取的特征中建模上下文信息。最后，文章提出的弱监督学习方法通过合成数据和巧妙的伪标注更新以及模型优化方式，做到无需人工标注真实数据的字符边界框即可训练模型预测文本的单字切分和识别结果，极大地降低了模型实际落地的成本。

2.2 基于切分的手写中文文本识别网络

图2 基于切分的手写中文文本识别网络结构图

基于切分的手写中文文本识别网络的结构借鉴了参考文献[1]中提出的模型。模型输入首先经过多个残差模块提取特征，再分为三路分别得到字符边界框分支的特征，字符定位分支的特征和字符分类分支的特征。这些特征的高度均为1，宽度均为。基于每个分支的特征，再通过卷积层预测出字符边界框坐标，字符定位置信度和字符分类概率。结合这些预测结果，通过设置置信度阈值和NMS操作，即可得到每个字符的边界框和类别，进而得到整个文本行的识别结果。

2.3 语义正则化

图3 语义正则化示意图

如上节中的图2所示，识别模型采用全卷积网络的形式实现，缺少CTC/Attention方法中常采用的BLSTM层，因而无法获取上下文的关联信息。因此，如图3所示，文章提出了语义正则化方法。

在训练过程中，该方法于字符分类特征之上添加额外的两层BLSTM层和字符分类层，新的字符分类结果同样计算交叉熵损失，增加在原网络的总损失上。因为BLSTM可以建模全局的上下文关联，所以通过梯度回传，可以引导字符分类特征嵌入上下文信息。

在推理过程中，删除额外的BLSTM层和字符分类层，采用原有的直接基于字符分类特征的分类结果。因为BLSTM层无法并行运算，前向效率较低，所以这样的推理方式保持了原有的全卷积结构的高推理速度。实验证明，采用BLSTM前后的分类结果的识别指标差距极小，进一步印证了字符分类特征可以学习到类似BLSTM建模后的上下文信息。

2.4 弱监督学习

弱监督学习的流程如图1（c）所示。模型首先采用简单的合成数据进行预训练，使得模型具有一定的定位和识别字符的能力，然后再采用仅有文本标注的真实数据进行训练，流程如下：

（1）对于真实数据，模型预测出多个字符的边界框和识别结果。文章中观察到，识别正确的字符通常预测的边界框也较为准确。因此通过计算识别结果和标注文本的编辑距离，得出两者中字符的对应关系，进一步得到识别正确的字符（红色的字符）。

（2）采用正确识别的字符的边界框（红色的边界框）对伪边界框标注进行更新。如果现有的伪边界框标注中已经存在该字符的伪标注，则将伪边界框标注更新为现有的伪边界框和新预测的边界框的加权和（权重基于二者的置信度计算），反之则将新预测的边界框直接复制为伪边界框。

（3）使用文本标注和现有的伪边界框标注对模型进行优化。与正常的损失计算不同的是，伪边界框标注可能并不包含所有字符的边界框。在这种情况下，字符边界框分支和字符分类分支的损失可以根据现有的字符伪边界框标注进行计算。但是因为仅能确定有字符的位置（蓝色的区域块），无法完全确定没有字符的位置，所以字符定位分支的损失计算存在一定困难。对于这一问题，文章中认为虽然存在无法确认是否包含字符的区域块（黄色），但是连续存在的伪标注框中间的区域块是可以确认为无字符（绿色），即为字符定位分支的负样本。至此，模型的三个分支都可以计算损失并优化。

三、实验

3.1 数据集

实验采用的真实数据集包括脱机手写中文数据集CASIA-HWDB、联机手写中文数据集CASIA-OLHWDB、ICDAR2013比赛测试集（包含脱机和联机数据）、复杂场景手写中文数据集SCUT-HCCDoc和场景中文数据集ReCTS。

实验采用的合成数据使用简单的将单字数据拼接在白色背景上的方法，无需复杂的数据合成和渲染算法，如图4所示。对于CASIA-HWDB和CASIA-OLHWDB，采用独立于文本行数据的同分布单字数据进行合成。对于SCUT-HCCDoc和ReCTS，采用字体文件和白色背景进行简单地合成。

图4 针对CASIA-HWDB，CASIA-OLHWDB和SCUT-HCCDoc的合成数据的示例（ReCTS采用与SCUT-HCCDoc相同的合成方式）

3.2 ICDAR2013脱机比赛测试集。

该方法在ICDAR2013脱机比赛测试集上的实验结果如表1所示，可视化结果如图5所示。

表1 ICDAR2013脱机比赛测试集实验结果

图5 ICDAR2013脱机比赛测试集可视化结果

3.3 ICDAR2013联机比赛测试集

该方法在ICDAR2013联机比赛测试集上的实验结果如表2所示，可视化结果如图6所示。

表2 ICDAR2013联机比赛测试集实验结果

图6 ICDAR2013联机比赛测试集可视化结果

3.4 SCUT-HCCDoc数据集

该方法在SCUT-HCCDoc数据集上的实验结果如表3所示，可视化结果如图7所示。

表3 SCUT-HCCDoc数据集实验结果

图7 SCUT-HCCDoc数据集可视化结果

3.5 ReCTS数据集

该方法在ReCTS数据集上的实验结果如表4所示，可视化结果如图8所示

表4 ReCTS数据集实验结果

图8 ReCTS数据集可视化结果

3.6 与CTC/Attention方法的比较

该方法与CTC/Attention方法在精度和速度上的比较如表5所示。可以看出，该方法在精度和速度上均由于目前流行的CTC/Attention方法。

表5 与CTC/Attention方法的在精度和速度上的比较

四、总结及讨论

该文章提出了一种新型的基于切分的联机和脱机手写中文文本识别方法。不同于现有的基于过切分的识别方法，该方法创新性地采用了一种基于端到端切分和识别单字的新型全卷积网络框架，因而具有极高的准确率和推理效率。为了解决单字切分标注的高成本问题，该文章提出了一种弱监督学习方法，使得仅需文本内容标注即可训练模型，并可同时给出文本行识别输出和单字框输出。此外，因为全卷积网络无法进行语义建模，文章中提出了语义正则化方法，在保持高效的全卷积推理结构的前提下，引导模型在特征提取中嵌入上下文信息。大量实验证明了该方法的有效性，在多个数据集上取得了SoTA的结果。同时该方法可以进一步应用于场景中文文本识别，同样在速度和精度上均优于CTC/Attention的方法。该文章希望通过这一工作为文本行识别领域提供一个新的解决思路。

五、相关资源

论文地址：https://ieeexplore.ieee.org/document/9695187

参考文献

[1]Dezhi Peng, et al. “A fast and accurate fully convolutional network for end-to-end handwritten Chinese text segmentation and recognition.” Proceedings of International Conference on Document Analysis and Recognition. 2019.

[2]Dezhi Peng, et al. “Recognition of handwritten Chinese text by segmentation: A segment-annotation-free approach.” IEEE Transactions on Multimedia. 2022.

原文作者: Dezhi Peng, Lianwen Jin, Weihong Ma, Canyu Xie, Hesuo Zhang, Shenggao Zhu and Jing Li

撰稿：彭德智

编排：高学

审校：殷飞

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

努力分享优质的计算机视觉相关内容，欢迎关注：

交流群

欢迎加入公众号读者群一起和同行交流，目前有美颜、三维视觉、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群

个人微信（如果没有备注不拉群！）
请注明：地区+学校/企业+研究方向+昵称



下载1：何恺明顶会分享

在「AI算法与图像处理」公众号后台回复：何恺明，即可下载。总共有6份PDF，涉及 ResNet、Mask RCNN等经典工作的总结分析

下载2：终身受益的编程指南：Google编程风格指南

在「AI算法与图像处理」公众号后台回复：c++，即可下载。历经十年考验，最权威的编程规范！


下载3 CVPR2022

在「AI算法与图像处理」公众号后台回复：CVPR，即可下载1467篇CVPR 2020论文 和 CVPR 2021 最新论文