使用Tesseract做文字识别(OCR)
前言
OCR(optical character recognition,光学字符识别)是指直接将包含文本的图像识别为计算机文字(计算机黑白点阵)的技术。图像中的文本一般为印刷体文本。
Tesseract是github上的OCR开源库,今天我将使用Tesseract来进行文字识别。
安装TESSERACT
安装Tesseract挺简单的,直接按照官网上安装方法安装即可。安装完记得配一下环境变量。
Tesseract官网
我是在Win10下安装的,打开命令行,输入tesseract -v查看Tesseract版本号,输出以下信息表示安装成功:
用TESSERACT做文字识别
现在我使用Tesseract来识别下面图
小糊糊
0