laygin

0获赞0粉丝0关注

基于transformer的文本识别方法

很久很久很久之前（大约是两年前）接触到了Transformer，seq2seq模型注意力机制的另一种实现，完全摒弃了循环网络，使得速度得到极大提升。所以就忍不住想，把Transformer应用到文本识别上来是否可行呢？这一想法使得我几天几夜茶饭不思，夜不能眠，理论上肯定是可以的，因为Transformer也是用于seq2seq模型的；鉴于最近终于空闲了，可以放手实现一下。关于Transformer的理论细节，本文就不展开了（后面计划着...）。其结构如下图所示：而我们主要关注的是encoder部分：基于TRANSFORMER文本识别模型的网络架构参考文献[3]把识别模型网络结构划分成了四部分，如图：