OCR文字识别用的是什么算法？

共 1305字，需浏览 3分钟

·

2022-02-09 17:37

根据近期的一些paper总结一下，说的不对请多指正。

General OCR一般包含两步: 1. detection-->找到包含文字的区域(proposal); 2. classification-->识别区域中的文字。

先说detection models, 近两年比较热门的object detection model有 faster-rcnn(https://arxiv.org/pdf/1506.01497.pdf) 和 yolo(http://pjreddie.com/media/files/papers/yolo.pdf), 两个模型都是基于CNN给出proposed regions 同时对object region进行分类。其中yolo比faster-rcnn的速度更快，但是在accuracy上有些损失。

再说classification models, 比较著名的是Ian goodfellow在13年提出的multi-digit number classification([1312.6082] Multi-digit Number Recognition from Street View Imagery using Deep Convolutional Neural Networks), 同样也是基于deep CNN. 该方法的不足在于要事先选定可预测的sequence的最大长度，较适用于门牌号码或者车牌号码(少量字符, 且每个字符之间可以看作是独立); 另一类比较常用的方法是RNN/LSTM/GRU + CTC, 方法最早由Alex Graves在06年提出应用于语音识别。这个方法的好处在于可以产生任意长度的文字，并且模型的性质决定了它有能力学到文字于文字之间的联系(temporal relations/dependencies)。不足之处在于sequential natural决定了它的计算效率没有CNN高，并且还有潜在的gradients exploding/vanishing的问题。

以上说的这两类模型都不需要对文字预先分割(end-to-end)。

另一类不需要对文字预先分割的方法就是attention-mechanism，attention可以分为hard attention和soft attention. 其中hard attention能够直接给出hard location，通常是bounding box的位置（https://arxiv.org/pdf/1412.7755.pdf), 想法直观，缺点是不能直接暴力bp。soft attention通常是rnn/lstm/gru encoder-decoder model (https://arxiv.org/abs/1603.03101), 可以暴力bp。还有一种比较特别的gradient-based attention(http://www.ics.uci.edu/~yyang8/research/feedback/feedback-iccv2015.pdf) 也挺有意思。

浏览 12

点赞

收藏

分享

举报

评论

图片

表情

OCR文字识别用的是什么算法？

梳理一下OCR文字识别三种解码算法，先介绍一下什么是OCR文字识别，然后介绍一下常用的特征提取方法CRNN，最后介绍3种常用的解码算法CTC/Attention/ACE。什么是OCR文字识别？一般来说，文字识别之前需要先对文字进行定位(文字检测主要有基于物体检测和基于分割两种方法)，文字识别就是通过输入文字图片，然后解码成文字的方法。本文主要讲文字识别部分，文字识别主要分成三种类型：单字分类、整词分类和整词识别。当能够定位出单字时，可以用图像分类的方法直接对单字进行分类；当需要预测整词数量较少时，可以对整词进行分类；当有大量整词需要预测并且没有单字定位时，就需要用解码序列的方法进行识别了。因此，文字识别中最常用的是文字序列

OCR文字识别用的是什么算法？

我来回答一下吧，毕竟我毕业设计做的这个（虽然烂尾了）。首先OCR是模式识别的一个领域，所以整体过程也就是模式识别的过程。其过程整体来说可以分为以下几个步骤： 1. 预处理：对包含文字的图像进行处理以便后续进行特征提取、学习。这个过程的主要目的是减少图像中的无用信息，以便方便后面的处理。在这个步骤通常有：灰度化（如果是彩色图像）、降噪、二值化、字符切分以及归一化这些子步骤。经过二值化后，图像只剩下两种颜色，即黑和白，其中一个是图像背景，另一个颜色就是要识别的文字了。降噪在这个阶段非常重要，降噪算法的好坏对特征提取的影响很大。字符切分则是将图像中的文字分割成单个文字——识别的时候是一个字一个字识别的。如果文字行有倾斜的话往往还要

OCR 中文识别用哪种软件识别率比较高？

要说文字识别率比较高的话，我觉得【迅捷文字识别】值得使用，识别精确率高，功能丰富程度，还能自动保留原文档排版格式，非常省心。迅捷文字识别 - 多功能图片转文字软件支持上传图片或者是拍照识别文字，拍照识别的话，还支持连续拍摄，效率更高一些。字体方面，支持手写字和印书体识别，识别准确率都还挺好的。除了能够识别文字外，还能识别表格。文字识别的准确率还挺高的，一般的中文图片文字识别，基本上没有什么错误。就连稍微复杂的表格识别的精确度都还可以，这么多数据就错了两个。这样的识别正确率算是比较高的了，毕竟没有哪一个文字识别软件是能够百分百识别的。文档识别出来之后，会保留图片的排

OCR 中文识别用哪种软件识别率比较高？

手机APP和电脑软件各推荐一款给大家~ 口袋扫描仪 Android/iOS 一款免费的应用——口袋扫描仪，可以一键扫描各种文档：文件、名片、书本、合同、发票、收据..... 通过自动检测边缘、智能捕捉扫描对象，检测并裁剪扫描对象边缘。扫描后可消除阴影，去除锯齿，自动增强，生成更清晰的扫描件，并对扫描文档进行剪裁、旋转、排序等操作。最后，提供使用OCR技术来提取文档中的文字，并提供复制、校对、分享。其他同类的白描app、扫描全能王app都不错。 PANDAOCR win 很多时候我们要将pdf转成word，无非是想进行内容编辑或是复制文本更加方便一点，下面就推荐一款更加简单便捷的文字识别软件~

OCR 中文识别用哪种软件识别率比较高？

给大家介绍两个非常好用的OCR工具，一个是电脑端的，一个是手机端的，此文较长，但值得你花点时间。 https://xg.zhihu.com/plugin/58a4943b07d6c3967ce687c45136f42e?BIZ=ECOMMERCE 1。电脑端：天若 ocr 图片转文字（OCR）是大家经常用到的一个功能，大多数时候我们都是在电脑上编辑文档，经常会碰到一些网页文字无法复制，比如百度文库的一些文档，会弹出这样的提示—— 或者图片中文字需要识别用来复制编辑，比如。。。太多场景了—— 所以这时候就需要一款 PC 端专用的 OCR 文字识别工具了。在 OCR 领域内，有一个高山仰止般的存在是

树洞 OCR 文字识别跨平台的 OCR 小工具

树洞OCR文字识别是一款跨平台的OCR小工具下载地址：百度网盘提取码：m6d8xxx-with-jre.xx 是完整版，带运行环境；如果精简版不能正常工作，请下载完整版使用；文字识别使用了各云平台开

C# 文字识别(OCR)

在上一篇中已经实现了自定义截图，这一篇接着来把最后的功能完善，将截取下来的图片做文字识别。有现成并且好用的轮子，能用就用，若无必要，还是少造为好（反正我懒）。。。所以我们采用使用百度OCR的SDK来实现。大家可以自己去百度AI开放平台，找到文字识别的项目看看，然后拿到api_key和secret_key即可，具体的SDK文档可以在官网详细查看。实现功能： * 截图并识别图片中的文字开发环境：开发工具：Visual Studio 2013 .NET Framework版本：4.5 实现代码： //从官网下载AipSdk.dll引用到自己项目 //填写自己账号的api_key和secret_ke

通用文字识别 OCR

树洞 OCR 文字识别跨平台的 OCR 小工具

树洞 OCR 文字识别是一款跨平台的 OCR 小工具下载地址：百度网盘提取码：m6d8xxx-wi

OCR文字识别-基于CTC/Attention/ACE的三大解码算法

点赞

收藏

分享

举报