blink
0获赞0粉丝0关注
OCR-文字识别(CTC/RNN+Attention)调整汇总
任务场景
用户上传的药品清单,诊断报告,医疗票据,保险单等,其中药品清单的任务最重,数字准确度要求极高,医疗票据的整体难度最高,字的颜色,不全,印章,水印,重叠现象较为严重
BASE模型:
CNN+RNN+(CTC或RNN+Attention常见问题:
1.数据量较小,而类别数较大(中文)
2.数据平衡较差
3.CTC结构的尖峰效应,RNN-Attention的长序列效果较差
问题分析
1,2属于数据采集问题
关于3,CTC的结构虽然通过DP的运算,比如图1中的a,输出可以为(a,-,-),(a,a,-),(-,a,-),(-,a,a),(-,-,a),(a,a,a),模型的损失会要求事件熵最小最高,这几种情况
blink
0