OCR 中文识别用哪种软件识别率比较高?

共 4796字,需浏览 10分钟

 ·

2022-02-09 17:37

给大家介绍两个非常好用的OCR工具,一个是电脑端的,一个是手机端的,此文较长,但值得你花点时间。

xg.zhihu.com/plugin/58a

1。电脑端:天若 ocr

图片转文字(OCR)是大家经常用到的一个功能,大多数时候我们都是在电脑上编辑文档,经常会碰到一些网页文字无法复制,比如百度文库的一些文档,会弹出这样的提示——



或者图片中文字需要识别用来复制编辑,比如。。。太多场景了——



所以这时候就需要一款 PC 端专用的 OCR 文字识别工具了。

在 OCR 领域内,有一个高山仰止般的存在是绕不过的,那就是 ABBYY 公司,向来是以识别率高领先业内,不过这种面向办公用户的商业软件正版费用不菲,不是一般用户可以承受的。


abbyy 中国官网截图

并且还有一个问题,就是太重,对于很多功能可能一般用户根本用不到,大多数情况我们的需求其实很简单:只需要快速识别网页文字或者图片文字就好,不需要打开过重的专业软件,轻巧准确即可

那么,这款适用于 Windows 平台的天若 OCR 文字识别工具一定更适合你,嗯,就是天若有情天亦老的「天若」。

软件作者来自吾爱破解的天若幽心,发布半年以来,深受好评,并且更新很快,而且最近又加入了批量识别功能,黑哥使用起来,最大的感受就是:轻、强、准

软件无需安装,打开后就会安静地在后台待着,需要使用时按默认的 F4 键呼出截图框,就可以框选你需要识别的内容,截图之后松开左键即可识别文字。

识别图中这么一段文字也就用了 0.776 秒。



获取到文字后直接关闭就又会回到状态栏等待下次召唤,事了拂衣去,活好不粘人。

当然,天若 OCR 工具的截图快捷键是还可以自定义修改,小伙伴们也可以在托盘图标中右键设置里根据使用习惯自行修改。




除了可以识别无法复制的网页文字,天若识别图片文字同样不在话下,找本书拍一页测试给大家看——



对于一些变形的艺术体甚至是手写体都有不错的识别效果——



还可以识别竖排文字——



图源软件作者介绍页

不仅可以识别文字,还自带翻译功能,支持中英文快速识别并且在线翻译——



可以说,这些功能足以满足平时在网页或图片中复制文字的需求了。

天若 OCR 之所以识别又准又快,是因为它是在线云端识别,即在截图后通过网络调用百度、腾讯、搜狗、有道等几大平台提供的文字识别接口来完成的,所以天若 OCR 的识别成功率和正确率都很高,当然必须在联网环境下才能使用。

如果一家接口识别效果偶尔不理想或者识别不出来,还可以更换其他选择。



软件作者也对几大平台的 OCR 文字识别 API 接口的特点做了一些实际测试,以及简短的介绍说明。这些仅供参考,大家在使用时要根据实际情况选择。

1. 搜狗 OCR 接口:这个接口识别效果很好,速度、准确率都没的说!也是作者重点推荐的,但其对干图片的尺寸有规定,所以作者已对软件截图进行了尺寸优化,保证较小的文字也能识别。

2. 百度 OCR 接口:其识别的精确度还可以,但是标点符号识别不太准确,速度一般。

3. 腾讯 OCR 接口:也是比较准确的,但速度比较慢。

4. 有道 OCR 接口:速度很快,平均 0.3-0.4 秒就可识别出来,但是接口有 IP 请求的限制。

2。手机端 :白描

手机上这么多的 OCR 工具,到底哪款软件最好用呢?网上有不少文章介绍了很多各种各样的 OCR 工具,多是从功能方面介绍,很少有针对识别率进行对比的,到底哪个识别率最高呢?

黑哥今天就尝试着做个小实验,对比一下到底哪款软件最给力!

特别说明:为充分对比软件识别效果,本文图多,如果不想看细节对比(都是我的心血啊,好意思吗?)可以直接拉到最后看结果。


一、评测准备


本次选中的是 Textgrabber、扫描全能王以及白描这三款。



1、主角背景:

A.textgrabber 如果你在电脑上用过 ABBYY FineReader Professional,那么你就不会对这款软件感到陌生,都是由 OCR 界的扛把子 ABBYY 开发的,在文档识别,数据捕获和语言技术的开发中居世界领先地位。

B. 扫描全能王 一款国产软件,其公司在 OCR、人工智能、手写识别、图像处理及自动图像增强等领域达到世界领先水平。核心产品名片全能王全球下载用户超过 3 亿人,扫描全能王全球下载用户 3.4 亿。

C. 白描 这个软件名气不大,出自国人独立开发者之手,开发者陶新乐,一名 iOS 软件工程师。

为什么会拿一款独立软件去跟大厂去怼呢,别着急,往下看你就明白了。

大家知道,作为 OCR 软件,我们最关心的就是识别率,因此,本次主要从这个方面进行评测对比。

另外,考虑到大家最常用的使用环境是中文、英文文档识别,将对中文、英文、中英文混排三种应用场景分别进行对比。

2、参评软件版本号:

Textgrabber:iOS 平台 6.5.0.1

扫描全能王:Android 平台 5.4.0

白描:Android 平台 1.0.4

别问我为啥平台不统一,textgrabber 是 App Store 限免的时候入的,为了省钱呗。。。

目前三款软件均支持 iOS 和 Android。

3、校对软件:Word 2016

简单介绍一下校对过程,在 Word 2016 里面打开审阅标签,选中对比,即可对原文本与目标文本进行对比。中间为校对区,右上为软件识别文本,右下为原稿。

实际过程中发现对比也会有判断错误的地方,如果大家有更好的文本对比软件,可以介绍给我。



4、原文件 为了尽量减少拍照这一环节对识别结果的影响,在识别对比时,采用的是同一张照片导入三个软件进行分别识别,字号均为五号字。





二、中文文档识别


本文档来自《三体》,共 1155 个字符。


Textgrabber




经与原文对比,共检查出 113 处修订。



错误表现:

1、首行缩进均未能正确识别。

2、标点符号识别错误,中文双引号 “识别为英文引号"。

3、部分字符识别错误,汪淼识别为汪森。

4、文本识别丢失。



5、右侧边缘文本会莫名其妙插入空格。




扫描全能王




经与原文对比,共检查出 103 处修订。



错误表现:

1、首行缩进均未能正确识别。

2、标点符号识别错误,中文双引号识别为英文引号,省略号…… 识别为 ······



3、在原文换行处错误识别为断行,没有纠正为自动连接。



4、字符识别错误比例低于 abbyy,更多来自于格式以及换行错误。


白描




共检查出 71 处修订。



错误表现:

1、首行缩进均未能正确识别。(目前所有 OCR 软件的通病,后边不再一一列出。)

2、大部分错误来自标点符号识别错误,特别是段首的标点部分丢失,段尾的标点符号几乎全部丢失,但识别到的中文双引号基本正确,不存在错误识别为英文引号。

3、亮点在于文字的识别率几乎是 100%,仅就本测试文档来说,文字全部识别正确。



小结:白描的文字识别率出乎意料地高,而且对原文版式的还原最准确,很少出现错误断行的情况。缺点在于对标点符号的识别上,段首标点部分识别,段末全部阵亡,经与作者反馈,证实确实存在这种情况,将在后续版本进行优化。

中文识别率排名:白描>textgrabber>扫描全能王


三、英文文档


出处忘了,好像是来自一篇小说吧,共 498 字。


Textgrabber




共检查出 27 处修订。



错误表现:

1、单词识别率很高,个别单词存在识别错误。

2、部分单词识别丢失。

3、个别标点符号识别错误。整体来说识别率很高。




扫描全能王




共检查出 107 处修订。



错误表现:

1、部分单词识别错误,准确率要低于 abbyy,但优于白描。

2、一个奇怪的发现是 word 文档对比时将扫描全能王的部分识别结果全部判定为错误,而实际上当我把眼看瞎了也没发现错在何处,所以实际的正确率是要高于对比结果的,难道 word 跟这货有仇吗?



4、扫描全能王一贯的老毛病依然存在,在换行处未能正确识别,出现多处断行。

5、部分大小写识别错误。


白描




共检查出 141 处修订。



错误表现:

1、单词识别正确率较高,但由于多处大小写未能正确识别,拉低了识别率。



2、单词之间的空格出现大面积识别丢失。

3、习惯性未能识别出每段段尾的标点符号,及部分段首的标点符号。

4、个别情况出现断行错误。

小结:在这个环节,国际大厂出品的 textgrabber 不负众望,对英文的识别率及其优异,包括对原文版式的还原也非常不错。从校对结果就能看出很少出现红色勘误。白描在这个环节表现较差,容易出现空格丢失以及大小写识别错误,在英文文本识别中非常吃亏。扫描全能王的表现介于两者之间,同样是识别率不错,但断行习惯性出错。

英文识别率排名:textgrabber>扫描全能王>白描



四、中英文混排文档


出处来自于威锋一篇帖子,759 字。


Textgrabber




共检查出 69 处修订。



错误表现:

1、文本识别结果习惯性在右侧边缘会莫名其妙插入空格。

2、部分字符识别错误,如将 mbp15 识别为 mbpl5。

3、个别标点识别错误。


扫描全能王




共检查出 182 处修订。



错误表现:

1、依然在换行处未能正确识别,出现多处错误断行。

2、中英文混排的字符出现部分识别错误,如 fy 识别为行,firefox 识别为 firefo×。



3、标点符号识别错误率较高。


白描




共检查出 142 处修订。



错误表现:

1、习惯性问题依然存在,未能识别出每段段尾的标点符号,及部分段首的标点符号。

2、中文识别率较高,中英文混排识别率一般,如将 html5test 识别为 ntml5test。



3、标点符号错误率较高。

小结:该环节各家表现综合了前两轮表现特点,textgrabber 在该环节依然稳健,没有特别明显的短板,白描和扫描全能王在前两环节的亮点和缺点也延续在此环节,综合来看,textgrabber 表现最佳。

中英文混排识别率排名:textgrabber>白描>扫描全能王



五、综合对比


1、识别率

白描作为一款独立应用,中文的识别率出乎意料地令人印象深刻,同时对原文版式的还原度最高,如果后期对标点符号识别继续优化的话,在中文识别领域里几乎就不存在对手了。

大厂出品的 textgrabber 表现最为稳定,毕竟是号称 OCR 界的老大,延续了桌面到手机端的优势,其对英文识别的准确度可谓赏心悦目。

扫描全能王的识别率在于两者之间,没有特别明显的短板,但也没有特别优异的亮点。它的优势在于对文档扫描及文档管理上,但在识别这个环节表现中庸。

总的来说,识别中文文档推荐白描,识别英文文档推荐 Textgrabber。

2、性价比

相较于 TextGrabber 30 元,和扫描全能王 30 元 / 月的相比,白描 Android 版普通版免费,iOS 版 6 元的入门价格几乎称得上是白菜价啦!



必须值得一提的是,白描的 iOS 版还支持表格扫描,其余两款均不支持。为了尝试这个功能,我还特地付费下载测试了一下,虽然在识别格式上还存在很多优化的空间,但总归迈出了值得期待的一步!



对了,白描还有个特别酷炫的功能,其他两款都没有,那就是支持最多 9 张图片的批量 OCR 识别,并且还能合并为一个文档!



不然这些爆炸好评怎么来的——



你说,识别率这么高,还卖得这么便宜,你还让不让别人活了,黑哥觉得这款软件卖个三四十块它一点都不贵呀!要下的趁早,说不定哪天就真的提价了,我已经在 iOS 和 Android 上都已付费购买,这款良心软件真的值得付费支持!

苹果党可以直接去 App Store 搜索下载,安卓党可以去酷安下载,这么好的货您不在云盘存一份吗?

xg.zhihu.com/plugin/58a

辛苦码字,辛苦评测,随手点赞,暖人心怀!

浏览 8
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报