MindOCROCR 开发及应用工具箱
MindOCR是一个基于 MindSpore 框架的 OCR 开发及应用的开源工具箱,可以帮助用户训练、应用业界最有优的文本检测、文本识别模型,例如DBNet/DBNet++和CRNN/SVTR,以实现图像文本理解的需求。
主要特性:
- 模块化设计: MindOCR将OCR任务解耦成多个可配置模块,用户只需修改几行代码,就可以轻松地在定制化的数据和模型上配置训练、评估的全流程;
- 高性能: MindOCR提供的预训练权重和训练方法可以使其达到OCR任务上具有竞争力的表现;
- 易用性: MindOCR提供易用工具帮助在真实世界数据中进行文本的检测和识别(敬请期待)。
支持模型及性能
文本检测
下表是目前支持的文本检测模型和它们在ICDAR2015测试数据集上的精度数据:
模型 | 骨干网络 | 预训练 | Recall | Precision | F-score | 配置文件 |
---|---|---|---|---|---|---|
DBNet | ResNet-50 | ImageNet | 81.97% | 86.05% | 83.96% | YAML |
DBNet++ | ResNet-50 | ImageNet | 82.02% | 87.38% | 84.62% | YAML |
文本识别
下表是目前支持的文本识别模型和它们在公开测评数据集 (IIIT, SVT, IC03, IC13, IC15, SVTP, CUTE) 上的精度数据:
模型 | 骨干网络 | 平均准确率 | 配置文件 |
---|---|---|---|
CRNN | VGG7 | 82.03% | YAML |
CRNN | Resnet34_vd | 84.45% | YAML |
评论