文本抽取解决方案-技术圈

商品详情

商品亮点

抽取精准度高

样本自动丰富

深度学习，片段感知

商品说明

版本: V1.0	交付方式: License
适用于: Linux	上架日期: 2020-10-13
交付SLA: 15 自然日

随着行业知识慢慢地向统一格式化靠拢，由于领域需求不同，同一类文件的版式存在千差万别，比如发票，不同行业，不同地市就存在很大的差异。传统的文本处理方式：需要将每种类型的文件都去标注一遍，特别是仅采用OCR的标注，版本稍微有点改动基本就需要重新标注训练。这就给标注工作带来了巨大的压力，且效率低下。那么，薄言文本抽取平台有哪些优势呢？
第一、联合研究的深度学习模型：采用全新预训练模型SegaBERT，在原始位置向量的基础上，对段落、句子、词语三者间的位置关系联合建模，更符合语言逻辑习惯，也更有益于模型学习。SegaBERT不止在各种任务集上比BERT有提升，对输入文本的编码逻辑上也有显著区别，能做到片段感知，即根据段落、句子的分隔信息进行编码。所以在相同的训练数据、计算资源与模型规模条件下，SegaBERT取得了较为明显的提升效果。
第二、标注样本自动丰富：大量的训练样本可以用来观测模型常见错误，利用后处理修正，提取或修正分段特征，包括向已有的标注样本加入一些特征来进行样本扩充和信息多样化。
第三、精准度高：除了采用领先的模型来提升效果外，我们结合薄言自身研究的语法引擎，增加对标注和训练样本预处理，能够自动筛选出更合理的数据，并对一些样本自动泛化出一系列意思相近的样本数据，这样就极大地增加了覆盖面，最终精准度明显要优于同行的其他产品。

用户案例

宁波银行文本抽取

在银行内部主要针对简历、发票、理财公告等关键信息抽取。图片类的文档需要通过华为的OCR来提取文字，文本类支持PDF、Word、Txt等格式。

最终宁波银行评测结果是，在理财公告的信息抽取结果达到了99%的准确度，在十几家参与竞争的公司中，我们与华为联合获得了第一名的好成绩。