zoro
0获赞0粉丝0关注
Python-文字识别
首先还是要安装tesseract OCR,即Optical Character Recognition,光学字符识别,谷歌开发的,在免费库中还是非常友好的,应用场景比较多,比如在爬取数据时可以识别验证码等,我是因为有一大批扫描文件需要转换成Excel,研究了一下,中间也遇到了很多问题,接下来可以带大家入个门。
第一步需要下载tesseract OCR安装包(百度网上很多资源,如果搜到CSDN分析的文章里边的下载地址还是比较靠谱的,如果懒得百度可以后台私信无偿发你),还是注意安装位置,后边要设置环境变量
第二步下载语言包,可以搜索已经训练好的现成的语言包(GitHub官方搜索下载,如果下载不下来可以百度或者后台私信无偿
zoro
0