一文带你了解文字识别
摘要:本文主要介绍文字检测和文字识别作为计算机视觉一部分的重要性,基本知识,面临的挑战,以及部分最新的成果。
人类在认识了解世界的信息中91%来自视觉,同样计算机视觉是机器认知世界的基础,也是人工智能研究的热点,文字识别也是人工智能的重要研究方向。在我们生活当中,文字是无处不在的,我们的衣食住行都是离不开它的。
文字的价值
首先,文字并非自然产生,而是人类特有的造物,是高层语义信息的载体。文字从整个文化的角度来讲也是非常重要的,人类的文明离不开文字,文字是我们学习知识、传播信息、记录思想很重要的载体,没有文字人类的文明无从谈起。比如说王羲之的“兰亭序”,不只是文化作品,也是人类历史上璀璨的明珠之一;再比如诗经,通过诗经我们既
华为云开发者社区
0
一文带你了解两种Transformer文字识别方法
> 摘要:受Transformer模型的启发,目前一些学者将该结构应用到文本行识别中,以替代RNN,取得了良好的效果,如在HGA-STR和 SRN。
当前的文本行识别器为拥有更强的序列语义能力,模型多采用CNN + RNN的结构,如目前使用十分广泛的两个识别器CRNN和Aster,这些模型取得了非常好的效果。然而由于RNN只能采用串行计算,在目前大量采用并行计算设备的前提下,RNN面临着明显的速度瓶颈。若弃用RNN只使用CNN,性能往往不尽如人意。在NLP领域,Ashish Vaswan[1]等人提出的Transformer模型在语言理解相关任务上十分成功,并优于CNN和RNN效果,展现出Transformer强大的序列建模能力。
华为云开发者社区
0
音视频传输协议众多, 5G时代不同业务应该如何选择?
> 摘要:音视频传输协议众多, 不同业务应该如何选择? RTSP、RTMP、RTP/RTC、HLS、MSS、DASH、WEBRTC、RIST、SRT;在此我们就从业务发展的视角来理解各种流媒体协议,帮助大家有更加清晰的理解,选择时做出更理性的判断。
IPTV
IPTV 是由运营商主导建设的一套系统,他的主要对标对象是传统广电的数字电视。所以这套系统首要解决的是大规模直播的问题,在此基础上还需要支持点播、时移、回看等新业务。运营商的优势就是可以自建一套可管理的网络,所以直播就基于组播技术进行大规模分发。主要技术栈是RTP+TS over multicast,这个技术大大降低了直播峰值对流媒体服务器的压力。而点播、时移、回看业务由
华为云开发者社区
0