laygin
0获赞0粉丝0关注
基于transformer的文本识别方法
很久很久很久之前(大约是两年前)接触到了Transformer,seq2seq模型注意力机制的另一种实现,完全摒弃了循环网络,使得速度得到极大提升。
所以就忍不住想,把Transformer应用到文本识别上来是否可行呢?这一想法使得我几天几夜茶饭不思,夜不能眠,理论上肯定是可以的,因为Transformer也是用于seq2seq模型的;鉴于最近终于空闲了,可以放手实现一下。
关于Transformer的理论细节,本文就不展开了(后面计划着...)。 其结构如下图所示:
而我们主要关注的是encoder部分:
基于TRANSFORMER文本识别模型的网络架构
参考文献[3]把识别模型网络结构划分成了四部分,如图:
laygin
0