docTROCR 文档文本识别库

联合创作 · 2023-09-29 23:11

由 TensorFlow 2 和 PyTorch 提供支持，任何人都可以无缝访问光学字符识别

获取预训练模型

使用两阶段方法在 docTR 中实现端到端 OCR：文本检测（定位单词），然后文本识别（识别单词中的所有字符）。因此，可以从可用实现列表中选择用于文本检测的架构和用于文本识别的架构。



from doctr.models import ocr_predictor



model = ocr_predictor(det_arch='db_resnet50', reco_arch='crnn_vgg16_bn', pretrained=True)

读取文件

可以从 PDF 或图像解释文档：



from doctr.io import DocumentFile

# PDF

pdf_doc = DocumentFile.from_pdf("path/to/your/doc.pdf").as_images()

# Image

single_img_doc = DocumentFile.from_images("path/to/your/img.jpg")

# Webpage

webpage_doc = DocumentFile.from_url("https://www.yoursite.com").as_images()

# Multiple page images

multi_img_doc = DocumentFile.from_images(["path/to/page1.jpg", "path/to/page2.jpg"])

以默认的预训练模型为例：



from doctr.io import DocumentFile

from doctr.models import ocr_predictor



model = ocr_predictor(pretrained=True)

# PDF

doc = DocumentFile.from_pdf("path/to/your/doc.pdf").as_images()

# Analyze

result = model(doc)

安装

安装 docTR 需要 Python 3.6（或更高版本）和 pip。

由于使用了 weasyprint，如果没有运行在 Linux 系统之上，将需要额外的依赖项。

对于 macOS 用户，可以按如下方式安装它们：



brew install cairo pango gdk-pixbuf libffi

对于 Windows 用户，这些依赖项包含在 GTK 中。

最新版本

可以使用 pypi 安装最新版本的软件包，如下所示：



pip install python-doctr

浏览 22

点赞

收藏

分享

举报

评论

图片

表情

《ABCNet》文本识别

《ABCNET：REAL-TIME SCENE TEXT SPOTTING WITH ADAPTIVE BEZIER-CURVE NETWORK》-- 2020CVPR ---------------------------------------- 补充知识点：伯恩斯坦多项式(Bernstein polynomials）：是逼近连续函数的一系列多项式，可用来证明，在区间区间上所有的连续函数都可以用多项式来逼近，并且收敛性很强，也就是一致收敛。贝塞尔曲线（Bézier curve）：又称贝兹曲线或贝济埃曲线，是应用于二维图形应用程序的数学曲线，可以使用很少的控制点生成复杂平滑曲线。常用类型分为：一阶贝塞尔（直线）、二

云脉文档识别

云脉文档识别服务，可快速精准识别普通文档、长微博、自然场景下的多国语言文字。

mermaid文本描述文档图形

mermaid 美人鱼, 是一个类似 markdown，用文本语法来描述文档图形(流程图、时序图、

TextShot截图文本识别工具

TextShot可截取屏幕截图并将其文本内容复制到剪贴板，适用于Windows、macOS和大多数现代Linux发行版。使用textshot-h 打印可用的命令行选项：usage:textshot[

mermaid文本描述文档图形

mermaid美人鱼,是一个类似markdown，用文本语法来描述文档图形(流程图、时序图、甘特图)的工具，您可以在文档中嵌入一段mermaid文本来生成SVG形式的图形比如插入下面的代码graph

textractPython 文本提取库

textract是一个Python库，用来从各种文档中提取文本信息。示例代码：# some python fileimport textracttext = textract.process("pat

MFLHintLabel文本动画库

MFLHintLabel是一个文本动画库，可对label的单个字符进行操作。它提供9种可高度自定义的动画类型，来显示和退出文本，全部基于单个字符操作。动画包括：线性演示，如：下降，飞出，在滑动爆炸内爆

textractPython 文本提取库

textract 是一个 Python 库，用来从各种文档中提取文本信息。示例代码：# some p

BleveGo 文本索引库

Bleve，发音为BLEH-vee，是一个现代化的Go搜索索引库。Bleve是使用Go编写的现代化文本索引库，支持各种常用的搜索索引，包括过滤，排序和分类。当使用Java和JVM的时候使用比较多的是L

Aspose.Words文档处理库

Aspose.Words是一款先进的类库，使您可以直接在各个应用程序中执行各种文档处理任务。Aspo

点赞

收藏

分享

举报