Tesseract OCR图像识别类库

联合创作 · 2023-09-30 13:41

Tesseract OCR 该软件包包含一个OCR引擎 - libtesseract和一个命令行程序 - tesseract。 Tesseract 4增加了一个基于OCR引擎的新神经网络（LSTM），该引擎专注于线路识别，但仍然支持Tesseract 3的传统Tesseract OCR引擎，该引擎通过识别字符模式来工作。通过使用Legacy OCR Engine模式（--oem 0）启用与Tesseract 3的兼容性。它还需要训练有素的数据文件，这些文件支持传统引擎，例如来自tessdata存储库的文件。

Tesseract 架构：

首席开发人员是Ray Smith。维护者是Zdenko Podobny。有关贡献者的列表，请参阅AUTHORS和GitHub的贡献者日志。

Tesseract 支持 unicode（UTF-8），可以“开箱即用” 识别100多种语言。

Tesseract支持各种输出格式：纯文本，hOCR（HTML），PDF，不可见文本的PDF，TSV。主分支还具有ALTO（XML）输出的实验支持。

您应该注意，在许多情况下，为了获得更好的OCR结果，需要提高您给Tesseract的图像质量。

该项目不包括GUI应用程序。如果您需要，请参阅3rdParty维基页面。

可以训练Tesseract识别其他语言。有关详细信息，请参阅Tesseract培训。

支持的编译器：

GCC 4.8 and above

Clang 3.4 and above

MSVC 2015, 2017, 2019

浏览 35

点赞

收藏

分享

举报

评论

图片

表情

Tesseract OCR iOSiOS 开源 OCR 引擎

Tesseract OCR iOS 是个 iOS5+ 框架，支持 armv7s 和 arm64 编译

Tesseract OCR iOSiOS 开源 OCR 引擎

TesseractOCRiOS是个iOS5+框架，支持armv7s和arm64编译。Tesseract可能是最精确的开源OCR引擎，结合Leptonica图像处理库可以查看大量的图像格式，支持超过60

【图像识别OCR】火车票识别

涪擎大数据

用 Python 进行 OCR 图像识别

Python中文社区

用 Python 进行 OCR 图像识别

使用Tesseract做文字识别（OCR）

前言 OCR（optical character recognition，光学字符识别）是指直接将包含文本的图像识别为计算机文字（计算机黑白点阵）的技术。图像中的文本一般为印刷体文本。 Tesseract是github上的OCR开源库，今天我将使用Tesseract来进行文字识别。安装TESSERACT 安装Tesseract挺简单的，直接按照官网上安装方法安装即可。安装完记得配一下环境变量。 Tesseract官网我是在Win10下安装的，打开命令行，输入tesseract -v查看Tesseract版本号，输出以下信息表示安装成功：用TESSERACT做文字识别现在我使用Tesseract来识别下面图

OpenFOAMCFD类库

OpenFOAM是一个完全由C++编写的面向对象的CFD类库，采用类似于我们日常习惯的方法在软件中描述偏微分方程的有限体积离散化，支持多面体网格（比如CD-adapco公司推出的CCM+生成的多面体网

UDDI4JJava 类库

uddi4j 是一个JAVA类库，提供了一个API来与web服务UDDI注册中心相结合。UDDI4J

FlexjsonJSON类库

FlexjsonJSON类库

PyocrPython 的 OCR 库

Pyocr是OCR引擎的简单Python封装，支持Tesseract和Cuneiform等。支持Python2.7和3.x，要求Pillow。示例代码：importImageimportsysfrom

点赞

收藏

分享

举报