文字识别经验
共 515字,需浏览 2分钟
·
2022-02-09 17:36
整个文字识别的算法流程可以分成四部分:预处理、文本行检测、文字识别、后处理。预处理包括图像方向校正(例如图像偏转90度,倒置)、文本行校正、图像质量增强(例如去除屏拍摩尔纹等)。预处理是为了处理特殊情况、提高检测和识别的精度。文本行检测目前以EAST和PSENET比较常见,目前来看,psenet精度更高,适用的场景丰富,对于文本行比较密集的场景和弯曲文本性能更优,但是psenet速度低于EAST,尤其是文本行越多,后处理占用时间较长。对于单字符情况,psenet的文本框的置信度较低,在较高置信度阈值时,容易导致最终检测不到,而较小的阈值容易引入噪声,所以需要根据具体场景设置一个合理的阈值。对于文本行识别,CRNN、attention ocr、bert等算法占据主流。后处理部分包括文字纠正、结构化输出等内容。
算法通用性:以检测算法为例,单一场景的数据训练往往只能在某一些场景中达到比较好的效果,当需要扩展新业务时,需要重新训练,费时费力。采用十几个场景的数据集训练检测算法则可以解决该问题,提升算法的通用性。
(后续更新...)
算法优化\ 算法工程化经验
评论