docTROCR 文档文本识别库
由 TensorFlow 2 和 PyTorch 提供支持,任何人都可以无缝访问光学字符识别
获取预训练模型
使用两阶段方法在 docTR 中实现端到端 OCR:文本检测(定位单词),然后文本识别(识别单词中的所有字符)。因此,可以从可用实现列表中选择用于文本检测的架构和用于文本识别的架构。
from doctr.models import ocr_predictor model = ocr_predictor(det_arch='db_resnet50', reco_arch='crnn_vgg16_bn', pretrained=True)
读取文件
可以从 PDF 或图像解释文档:
from doctr.io import DocumentFile # PDF pdf_doc = DocumentFile.from_pdf("path/to/your/doc.pdf").as_images() # Image single_img_doc = DocumentFile.from_images("path/to/your/img.jpg") # Webpage webpage_doc = DocumentFile.from_url("https://www.yoursite.com").as_images() # Multiple page images multi_img_doc = DocumentFile.from_images(["path/to/page1.jpg", "path/to/page2.jpg"])
以默认的预训练模型为例:
from doctr.io import DocumentFile from doctr.models import ocr_predictor model = ocr_predictor(pretrained=True) # PDF doc = DocumentFile.from_pdf("path/to/your/doc.pdf").as_images() # Analyze result = model(doc)
安装
安装 docTR 需要 Python 3.6(或更高版本)和 pip。
由于使用了 weasyprint,如果没有运行在 Linux 系统之上,将需要额外的依赖项。
对于 macOS 用户,可以按如下方式安装它们:
brew install cairo pango gdk-pixbuf libffi
对于 Windows 用户,这些依赖项包含在 GTK 中。
最新版本
可以使用 pypi 安装最新版本的软件包,如下所示:
pip install python-doctr
评论
《ABCNet》文本识别
《ABCNET:REAL-TIME SCENE TEXT SPOTTING WITH ADAPTIVE BEZIER-CURVE NETWORK》-- 2020CVPR
----------------------------------------
补充知识点:
伯恩斯坦多项式(Bernstein polynomials):是逼近连续函数的一系列多项式,可用来证明,在区间 区间上所有的连续函数都可以用多项式来逼近,并且收敛性很强,也就是一致收敛。
贝塞尔曲线(Bézier curve):又称贝兹曲线或贝济埃曲线,是应用于二维图形应用程序的数学曲线,可以使用很少的控制点生成复杂平滑曲线。常用类型分为:一阶贝塞尔(直线)、二
枣树的日志
0
TextShot截图文本识别工具
TextShot可截取屏幕截图并将其文本内容复制到剪贴板,适用于Windows、macOS和大多数现代Linux发行版。 使用textshot-h 打印可用的命令行选项:usage:textshot[
TextShot截图文本识别工具
0
mermaid文本描述文档图形
mermaid美人鱼,是一个类似markdown,用文本语法来描述文档图形(流程图、时序图、甘特图)的工具,您可以在文档中嵌入一段mermaid文本来生成SVG形式的图形比如插入下面的代码graph
mermaid文本描述文档图形
0
textractPython 文本提取库
textract是一个Python库,用来从各种文档中提取文本信息。示例代码:# some python fileimport textracttext = textract.process("pat
textractPython 文本提取库
0
MFLHintLabel文本动画库
MFLHintLabel是一个文本动画库,可对label的单个字符进行操作。它提供9种可高度自定义的动画类型,来显示和退出文本,全部基于单个字符操作。动画包括:线性演示,如:下降,飞出,在滑动爆炸内爆
MFLHintLabel文本动画库
0