【关于 GECToR】那些你不知道的事-技术圈

作者：杨夕
论文：GECToR–Grammatical Error Correction: Tag, Not Rewrite
会议：ACL2020
论文下载地址：chrome-extension://ikhdkkncnoglghljlkmcimlnlhkeamad/pdf-viewer/web/viewer.html?file=https%3A%2F%2Farxiv.org%2Fpdf%2F2005.12592.pdf#=&zoom=125
论文代码：https://github.com/grammarly/gector
本文链接：https://github.com/km1994/nlp_paper_study
个人介绍：大佬们好，我叫杨夕，该项目主要是本人在研读顶会论文和复现经典论文过程中，所见、所思、所想、所闻，可能存在一些理解错误，希望大佬们多多指正。
先介绍一下，自己为什么会读这一篇文章，主要原因是自己正好参加了科大讯飞举办的 CIEC-CTC 2021 中文文本纠错比赛，然后刚好该比赛的 baseline 就是 ctc_gector，所以就想了读一下该文章，顺便学习一下文本纠错任务。
【注：手机阅读可能图片打不开！！！】

一、摘要

论文方法：提出了仅使用Transformer编码器的简单有效的GEC序列标注器。
论文思路：

首先是错误的语料库；
其次是有错误和无错误的平行语料库的组合。
系统在综合数据上进行了预训练；
然后分两个阶段进行了微调：
我们设计了自定义的字符级别转换，以将输入字符映射到纠正后的目标。

效果：

我们最好的单模型以及联合模型GEC标注器分别在CoNLL-2014测试集上F0.5达到65.3和66.5，在BEA-2019上F0.5达到72.4和73.6。模型的推理速度是基于Transformer的seq2seq GEC系统的10倍

二、论文背景

2.1 什么是 seq2seq？

背景：由于Seq2Seq在机器翻译等领域的成功应用，把这种方法用到类似的语法纠错问题上也是非常自然的想法。
seq2seq 的输入输出：

机器翻译的输入是源语言(比如英语)，输出是另外一个目标语言(比如法语);
语法纠错的输入是有语法错误的句子，输出是与之对应的语法正确的句子;

区别：只在于机器翻译的输入输出是不同的语言而语法纠错的输入输出是相同的语言。

2.2 Transformer 后的 seq2seq ？

随着 Transformer 在机器翻译领域的成功，主流的语法纠错也都使用了 Transformer 来作为 Seq2Seq 模型的 Encoder 和 Decoder。

当然随着 BERT 等 Pretraining 模型的出现，机器翻译和语法纠错都使用了这些 Pretraining 的 Transformer 模型来作为初始化参数，并且使用领域的数据进行 Fine-Tuning。由于领域数据相对 Pretraining 的无监督数据量太少，最近合成的(synthetic)数据用于 Fine-tuning 变得流行起来。查看一下 nlpprogress 的 GEC 任务，排行榜里的方法大多都是使用了BERT 等 Pretraining 的 Seq2Seq 模型。

三、论文动机

3.1 什么是 GEC 系统？

3.1.1 基于 encoder-decoder 模型 GEC 系统

介绍：基于 NMT 自然还是要使用基于encoder-decoder 模型的 Seq2Seq。使用 RNN 作为核心网络；
结构：

用一个 RNN （Encoder）输入句子F编码成一个固定长度的向量；
用另一个 RNN （Decoder）基于该向量进行解码，输出纠正后的句子；

3.1.2 基于 attention 机制 GEC 系统

动机：RNN 对长距离依赖的不敏感和“输入的表示”（就是第5个模型中的压紧处理），输入的表示问题相比于长距离依赖问题更加严重。

eg：想象有两个输入句子，第一个仅包含3个单词，第二个包含100个单词，而encoder居然无差别地将它们都编码成相同长度的向量（比如说50维）。这一做法显然存在问题，长度为100的句子中很多信息可能被忽略了。

介绍：加入attention机制后，如果给 decoder 多提供了一个输入“c”，在解码序列的每一步中都让“c”参与就可以缓解瓶颈问题。输入序列中每个单词对 decoder 在不同时刻输出单词时的帮助作用不一样，所以就需要提前计算一个 attention score 作为权重分配给每个单词，再将这些单词对应的 encoder output 带权加在一起，就变成了此刻 decoder 的另一个输入“c”。

3.1.3 基于 Transformer-NMT 的 GEC 系统

介绍：基于 Transformer-NMT 自然还是要使用基于encoder-decoder 模型的 Seq2Seq。使用 Transformer 作为核心网络；

3.2 NMT-based GEC系统存在什么问题？

由于 NMT-based GEC系统的核心是 seq2seq 结构，所以在部署的时候会遇到以下问题：

缓慢的推理速度；
需要大量的训练数据；
可解释性，从而使他们需要其他功能来解释更正，例如语法错误类型分类；

四、论文介绍

4.1 论文解决 NMT-based GEC系统问题的核心是什么？

将GEC任务从序列生成简化到序列标注来解决 NMT-based GEC系统问题

4.2 GEC 的训练阶段？

对合成数据进行预训练；
对有错误的平行语料库进行微调；
对有错误和无错误的平行语料库的组合进行微调。

4.3 NMT-based GEC 系统与 GEC 在预测阶段的区别？

NMT-based GEC 系统：保留字符，删除字符以及在字符之前添加短语；
GEC 系统：解码器是 softmax 层。PIE是一个迭代序列标注 GEC 系统，可预测字符级编辑操作。

4.4 NMT-based GEC 系统与 GEC 的区别是什么？

开发自定义的 g-transformations：通过字符级编辑以执行语法错误纠正。预测 g-transformations 而不是常规字符可改善 GEC 序列标签系统的通用性。
将微调阶段分为两个阶段：

对仅错误的句子进行微调；
然后对包含有错误和无错误句子的小型高质量数据集进行进一步的微调。

通过在我们的GEC序列标注系统中加入预训练的Transformer编码器，可以实现卓越的性能。在实验中，XLNet和RoBERTa的编码器的性能优于其他三个Transformer编码器（ALBERT，BERT和GPT-2）。

五、论文思路

5.1 Token-level transformations

包含 Basic transformations 和 g-transformations 两种方法。

5.1.1 Basic transformations

保持不变、删除、在目前的 token 后面添加一个 token、将目前的 token 替换为另一个 token

5.1.2 g-transformations

主要是一些具体的任务，比如：改变大小写、将当前的token与下一个token合并、把目前的token分解为两个、单数转复数等等

5.1.3 数据预处理

要将任务作为序列标注问题进行处理，我们需要将每个目标句子从训练/评估集中转换为标记序列，其中每个标记都映射到单个源字符。下面是表3中针对颜色编码的句子对的三步预处理算法的简要说明：

将源句子中的每个字符映射到目标句子中的字符的子序列;
对于列表中的每个映射，需要找到将源字符转换为目标子序列的字符级别转换;
每个源字符仅保留一个转换

注：迭代序列标记方法增加了一个约束，因为我们只能为每个字符使用单个标记。如果有多个转换，我们将采用第一个不是$KEEP标记的转换。

六、Tagging model architecture

GEC序列标注模型是一种编码器，由预训练的 BERT 型 transformer 组成，堆叠有两个线性层，顶部有 softmax 层。

我们始终使用预训练 transformer 的 Base 配置。

Tokenization 取决于特定 transformer 的设计：

BPE被用于RoBERTa；
BERT 使用 WordPiece；
XLNet 则使用 SentencePiece。

为了在字符级别处理信息，我们从编码器表示中获取每个字符的第一个子词，然后将其传递到后续的线性层，这些线性层分别负责错误检测和错误标记。

七、Iterative sequence tagging approach

使用GEC sequence tagger标注修改过的序列，然后再次纠正，以这样的方式进行迭代，保证尽可能地完全纠正句子。由于模型问题，一次迭代只能执行一次编辑，但是很多错误并不能由一次编辑来纠正，所以多次迭代具有相应的科学性。

八、实战

8.1 Requirements

python=3.6
torch==1.3.0
allennlp==0.8.4
python-Levenshtein==0.12.0
transformers==2.2.2
scikit-learn==0.20.0
sentencepiece==0.1.91
overrides==4.1.2

8.2 数据介绍

{"ID": "ID14347228", "source": "优点：反映科目之间的对应关系，便于了解经济业务概况，辩于检查和分析经问济业务；", "target": "优点：反映科目之间的对应关系，便于了解经济业务概况，便于检查和分析经济业务；"}
  {"ID": "ID00558239", "source": "明武宗时，宦官刘瑾被施刑，据说割天三夜。", "target": "明武宗时，宦官刘瑾被施以此刑，据说割了三天三夜。"}
  {"ID": "ID13767986", "source": "昌江出版集团北京图书中心总编辑、《狼图腾》责任编辑安波舜这样描述自己眼中的姜戎：67“如果他走在任何地方，没有任何人会注意他。”", "target": "长江出版集团北京图书中心总编辑、《狼图腾》责任编辑安波舜这样描述自己眼中的姜戎：67“如果他走在任何地方，没有任何人会注意他。”"}

注：ID 为编号；source 为错误句子；target 为纠错后的句子
eg：source 中的 ”优点：反映科目之间的对应关系，便于了解经济业务概况，辩于检查和分析经问济业务；” 加粗的词是错误的
target：“优点：反映科目之间的对应关系，便于了解经济业务概况，便于检查和分析经济业务；”

8.3 操作

8.3.1 安装依赖包

pip install -r requirements.txt

8.3.2 模型训练

将训练集train.json中数据分成两个文件，train.src 和 train.tgt
使用tokenizer.py或其他工具将数据进行分词
使用预处理脚本将数据处理成 gecotr 需要的格式

python utils/preprocess_data.py -s SOURCE -t TARGET -o OUTPUT_FILE

使用stage1_bert_ctc2021.sh训练模型

8.3.3 模型推理

sh run_bert_ctc2021.sh

8.4 代码细节学习

8.4.1 数据分隔

将训练集train.json中数据分成两个文件，train.src和train.tgt，这里并没有写代码，而是通过一些工具进行分隔，所以不做介绍。

分隔后的数据

train.src

优点：反映科目之间的对应关系，便于了解经济业务概况，辩于检查和分析经问济业务；
  明武宗时，宦官刘瑾被施刑，据说割天三夜。
  昌江出版集团北京图书中心总编辑、《狼图腾》责任编辑安波舜这样描述自己眼中的姜戎：67“如果他走在任何地方，没有任何人会注意他。”

train.tgt

优点：反映科目之间的对应关系，便于了解经济业务概况，便于检查和分析经济业务；
  明武宗时，宦官刘瑾被施以此刑，据说割了三天三夜。
  长江出版集团北京图书中心总编辑、《狼图腾》责任编辑安波舜这样描述自己眼中的姜戎：67“如果他走在任何地方，没有任何人会注意他。”

8.4.2 数据分词

使用 Bert 中 tokenizer.py 将数据进行分词，调用函数：

# 功能：对 文件中句子 进行 分词
  def segment_for_file(inp_file_name,onp_file_name):
      with open(inp_file_name, encoding="utf-8",mode="r") as fr, open(onp_file_name, encoding="utf-8",mode="a+") as fw:
          lines = fr.readlines()
          for line in tqdm(lines):
              line = tokenization.convert_to_unicode(line)
              if not line:
                  print()
                  continue

              tokens = tokenizer.tokenize(line)
              line = ' '.join(tokens)
              fw.write(f"{line}\n")

分词后的数据：

２ ##２ 岁 的 威 廉 － 卡 瓦 略 已 经 为 葡 萄 牙 国 家 队 踢 了 两 场 比 赛 了 ， 他 在 ２０ ##１ ##３ 年 １１ 月 １ ##９ 日 葡 萄 牙 客 战 瑞 典 的 生 死 战 中 替 补 出 场 上 演 触 子 秀 。
  co ##ls ##pan = \ " 5 \ " style = \ " back ##ground - color : silver ;
  ...

8.4.3 Token-level transformations 使用预处理脚本将数据处理成 gecotr 需要的格式（训练数据格式）