OCR文字识别用的是什么算法?
Ying Zhang
共 1305字,需浏览 3分钟
· 2022-02-09
根据近期的一些paper总结一下,说的不对请多指正。
General OCR一般包含两步: 1. detection-->找到包含文字的区域(proposal); 2. classification-->识别区域中的文字。
先说detection models, 近两年比较热门的object detection model有 faster-rcnn(https://arxiv.org/pdf/1506.01497.pdf) 和 yolo(http://pjreddie.com/media/files/papers/yolo.pdf), 两个模型都是基于CNN给出proposed regions 同时对object region进行分类。 其中yolo比faster-rcnn的速度更快,但是在accuracy上有些损失。
再说classification models, 比较著名的是Ian goodfellow在13年提出的multi-digit number classification([1312.6082] Multi-digit Number Recognition from Street View Imagery using Deep Convolutional Neural Networks), 同样也是基于deep CNN. 该方法的不足在于要事先选定可预测的sequence的最大长度,较适用于门牌号码或者车牌号码(少量字符, 且每个字符之间可以看作是独立); 另一类比较常用的方法是RNN/LSTM/GRU + CTC, 方法最早由Alex Graves在06年提出应用于语音识别。这个方法的好处在于可以产生任意长度的文字,并且模型的性质决定了它有能力学到文字于文字之间的联系(temporal relations/dependencies)。不足之处在于sequential natural决定了它的计算效率没有CNN高,并且还有潜在的gradients exploding/vanishing的问题。
以上说的这两类模型都不需要对文字预先分割(end-to-end)。
另一类不需要对文字预先分割的方法就是attention-mechanism,attention可以分为hard attention和soft attention. 其中hard attention能够直接给出hard location,通常是bounding box的位置 (https://arxiv.org/pdf/1412.7755.pdf), 想法直观,缺点是不能直接暴力bp。soft attention通常是rnn/lstm/gru encoder-decoder model (https://arxiv.org/abs/1603.03101), 可以暴力bp。还有一种比较特别的gradient-based attention(http://www.ics.uci.edu/~yyang8/research/feedback/feedback-iccv2015.pdf) 也挺有意思。
浏览
4General OCR一般包含两步: 1. detection-->找到包含文字的区域(proposal); 2. classification-->识别区域中的文字。
先说detection models, 近两年比较热门的object detection model有 faster-rcnn(https://arxiv.org/pdf/1506.01497.pdf) 和 yolo(http://pjreddie.com/media/files/papers/yolo.pdf), 两个模型都是基于CNN给出proposed regions 同时对object region进行分类。 其中yolo比faster-rcnn的速度更快,但是在accuracy上有些损失。
再说classification models, 比较著名的是Ian goodfellow在13年提出的multi-digit number classification([1312.6082] Multi-digit Number Recognition from Street View Imagery using Deep Convolutional Neural Networks), 同样也是基于deep CNN. 该方法的不足在于要事先选定可预测的sequence的最大长度,较适用于门牌号码或者车牌号码(少量字符, 且每个字符之间可以看作是独立); 另一类比较常用的方法是RNN/LSTM/GRU + CTC, 方法最早由Alex Graves在06年提出应用于语音识别。这个方法的好处在于可以产生任意长度的文字,并且模型的性质决定了它有能力学到文字于文字之间的联系(temporal relations/dependencies)。不足之处在于sequential natural决定了它的计算效率没有CNN高,并且还有潜在的gradients exploding/vanishing的问题。
以上说的这两类模型都不需要对文字预先分割(end-to-end)。
另一类不需要对文字预先分割的方法就是attention-mechanism,attention可以分为hard attention和soft attention. 其中hard attention能够直接给出hard location,通常是bounding box的位置 (https://arxiv.org/pdf/1412.7755.pdf), 想法直观,缺点是不能直接暴力bp。soft attention通常是rnn/lstm/gru encoder-decoder model (https://arxiv.org/abs/1603.03101), 可以暴力bp。还有一种比较特别的gradient-based attention(http://www.ics.uci.edu/~yyang8/research/feedback/feedback-iccv2015.pdf) 也挺有意思。
评论
OCR文字识别用的是什么算法?
我来回答一下吧,毕竟我毕业设计做的这个(虽然烂尾了)。
首先OCR是模式识别的一个领域,所以整体过程也就是模式识别的过程。其过程整体来说可以分为以下几个步骤:
1. 预处理:对包含文字的图像进行处理以便后续进行特征提取、学习。这个过程的主要目的是减少图像中的无用信息,以便方便后面的处理。在这个步骤通常有:灰度化(如果是彩色图像)、降噪、二值化、字符切分以及归一化这些子步骤。经过二值化后,图像只剩下两种颜色,即黑和白,其中一个是图像背景,另一个颜色就是要识别的文字了。降噪在这个阶段非常重要,降噪算法的好坏对特征提取的影响很大。字符切分则是将图像中的文字分割成单个文字——识别的时候是一个字一个字识别的。如果文字行有倾斜的话往往还要
吱乎
0
OCR文字识别用的是什么算法?
梳理一下OCR文字识别三种解码算法,先介绍一下什么是OCR文字识别,然后介绍一下常用的特征提取方法CRNN,最后介绍3种常用的解码算法CTC/Attention/ACE。
什么是OCR文字识别?
一般来说,文字识别之前需要先对文字进行定位(文字检测主要有基于物体检测和基于分割两种方法),文字识别就是通过输入文字图片,然后解码成文字的方法。本文主要讲文字识别部分,文字识别主要分成三种类型:单字分类、整词分类和整词识别。当能够定位出单字时,可以用图像分类的方法直接对单字进行分类;当需要预测整词数量较少时,可以对整词进行分类;当有大量整词需要预测并且没有单字定位时,就需要用解码序列的方法进行识别了。因此,文字识别中最常用的是文字序列
陀飞轮
0
OCR 中文识别用哪种软件识别率比较高?
给大家介绍两个非常好用的OCR工具,一个是电脑端的,一个是手机端的,此文较长,但值得你花点时间。
https://xg.zhihu.com/plugin/58a4943b07d6c3967ce687c45136f42e?BIZ=ECOMMERCE
1。电脑端:天若 ocr
图片转文字(OCR)是大家经常用到的一个功能,大多数时候我们都是在电脑上编辑文档,经常会碰到一些网页文字无法复制,比如百度文库的一些文档,会弹出这样的提示——
或者图片中文字需要识别用来复制编辑,比如。。。太多场景了——
所以这时候就需要一款 PC 端专用的 OCR 文字识别工具了。
在 OCR 领域内,有一个高山仰止般的存在是
网友
0
OCR 中文识别用哪种软件识别率比较高?
要说文字识别率比较高的话,我觉得【迅捷文字识别】值得使用,识别精确率高,功能丰富程度,还能自动保留原文档排版格式,非常省心。
迅捷文字识别 - 多功能图片转文字软件
支持上传图片或者是拍照识别文字,拍照识别的话,还支持连续拍摄,效率更高一些。
字体方面,支持手写字和印书体识别,识别准确率都还挺好的。除了能够识别文字外,还能识别表格。
文字识别的准确率还挺高的,一般的中文图片文字识别,基本上没有什么错误。
就连稍微复杂的表格识别的精确度都还可以,这么多数据就错了两个。
这样的识别正确率算是比较高的了,毕竟没有哪一个文字识别软件是能够百分百识别的。
文档识别出来之后,会保留图片的排
互盾科技
0
OCR 中文识别用哪种软件识别率比较高?
手机APP和电脑软件各推荐一款给大家~
口袋扫描仪
Android/iOS
一款免费的应用——口袋扫描仪,可以一键扫描各种文档:文件、名片、书本、合同、发票、收据.....
通过自动检测边缘、智能捕捉扫描对象,检测并裁剪扫描对象边缘。
扫描后可消除阴影,去除锯齿,自动增强,生成更清晰的扫描件,并对扫描文档进行剪裁、旋转、排序等操作。
最后,提供使用OCR技术来提取文档中的文字,并提供复制 、校对、分享。
其他同类的白描app、扫描全能王app都不错。
PANDAOCR
win
很多时候我们要将pdf转成word,无非是想进行内容编辑或是复制文本更加方便一点,下面就推荐一款更加简单便捷的文字识别软件~
见长
0
C# 文字识别(OCR)
在上一篇中已经实现了自定义截图,这一篇接着来把最后的功能完善,将截取下来的图片做文字识别。
有现成并且好用的轮子,能用就用,若无必要,还是少造为好(反正我懒)。。。
所以我们采用使用百度OCR的SDK来实现。大家可以自己去 百度AI开放平台,找到文字识别的项目看看,然后拿到api_key和secret_key即可,具体的SDK文档可以在官网详细查看。
实现功能:
* 截图并识别图片中的文字
开发环境:
开发工具:Visual Studio 2013
.NET Framework版本:4.5
实现代码:
//从官网下载AipSdk.dll引用到自己项目 //填写自己账号的api_key和secret_ke
dotnet编程大全
0
树洞 OCR 文字识别跨平台的 OCR 小工具
树洞OCR文字识别是一款跨平台的OCR小工具下载地址:百度网盘 提取码:m6d8xxx-with-jre.xx 是完整版,带运行环境;如果精简版不能正常工作,请下载完整版使用;文字识别使用了各云平台开
树洞 OCR 文字识别跨平台的 OCR 小工具
0
文字识别的软件
在如今这个快节奏、高速发展的社会,无论做什么都需要讲究效率,工作、学习、办理业务等等,一切以效率为王。OCR文字识别软件,则在科技成果的催化下应运而生。简单好用的OCR文字识别软件,让一切像开挂一样。
中安未来OCR文字识别技术有着多年成熟发展的历史,到如今产业化、战略化的发展,一路走来,其识别准确率、识别速度,得到广泛认可。以核心OCR技术为基础,根据不同行业领域不同需求,研发出护照阅读器智能硬件,以及银行卡识别、身份证识别、行驶证识别、车牌识别、名片识别等识别
在文字识别领域,中安未来支持中文、日文、阿拉伯文、英文、德文、韩文、意大利文、法文、藏文、维吾尔文等几十种语言文字识别。支持自动矫正、旋转,同时可直接导入
周雨波
0
文字识别的优点
文字识别,是所有衍生识别应用的根基,依托强大的研发团队和数十载技术积累,专为智能化而生。无论是资料检索、文字检测,还是内容监管、视频内容分析等,基于业界领先的OCR识别技术,能为您提供多场景、多语言、高精度的图文检测识别服务。其中中文、英文、日文、阿拉伯文的识别精准性,在业内有着较高的知名度。
中安未来文字识别产品的五大优点:
准确性高:
中安未来文字识别OCR,可识别中文、英文、日文、韩文、阿拉伯文、意大利文、维吾尔文等几十种文字。其核心OCR自主研发技术,经过不断的完善和更新,已相当成熟,识别准确率高。
稳定性强:
文字识别OCR核心早已成功应用于Microsoft、Nuance、OPENTEXT、中国工商
周雨波
0