如何优化BERT等预训练模型-Tricks总结-技术圈

历时几个月的NLP中文预训练模型泛化能力挑战赛【25】已经圆满结束，进入决赛的各个队伍都提供了很好的方案模型。

这次比赛是CLUE与阿里云平台、乐言科技联合发起的第一场针对中文预训练模型泛化能力的挑战赛。
赛题以自然语言处理为背景，要求选手通过算法实现泛化能力强的中文预训练模型。通过这道赛题可以引导大家更好地理解预训练模型的运作机制，探索深层次的模型构建和模型训练，而不仅仅是针对特定任务进行简单微调。

赛后，CLUE【26】就将各个选手的方案进行总结归拢，提取出各种对任务有效的方案方法。大体上，各种优化方法根据机器学习的三要素来划分：模型、策略（loss）、算法（优化方法），再加上前期的数据，后期后处理跟其他正则化方法。

总的来说，对任务最有增益的还是大数据与大预训练模型，能够提高4%左右的指标，其他的各种trick也都可以锦上添花，可以提高0.5-1%左右的指标。下面我们就直接介绍各种方法。

数据

数据预处理
数据增广
外部数据

模型

大力出奇迹
模型结构

loss

label Smooting

优化方法

学习率
对抗训练
EMA，SWA

正则化

word mixup
dropout
early stop

后处理

阈值优化

其他

未起效方法
训练技巧
自知识蒸馏

数据

都说数据是模型的上限，可见数据对模型的重要性，其中数据的质量与数量都对模型至关重要。

数据预处理

数据预处理，主要会删除错误、冗余数据，修改特殊表示，整理数据格式等等，从而提高数据的整体质量，以此来提高模型的效果。在本次比赛中，数据相对比较干净，相关处理比较少，就是简单将emoj替换成相应字符，以及将中文标点替换成英文格式等操作，在选手的方案中，该方法与下面的数据增广一起，可以提高模型0.2%左右的指标。常用的数据预处理内容参考【1】【2】。

数据增广

数据增广，就是通过修改样本而不改变其标签的方式，提高了样本的多样性，在保持一定数据质量的条件下，提高了数据的数量，从而提高了模型的鲁棒性。最常用数据增广的方式主要有：

EDA【3】：简单数据增广，通过随机增删字词，替换随机词或近义词，以及调整字词顺序来实现。
回译【4】：将样本翻译成第二种语言，然后再翻译回来，形成新样本。

比赛中，有选手使用EDA的方式进行数据增广，跟数据预处理一起，提高了0.2%左右的指标。【5】中提供了很多数据增广的方法，可用来快速生成大量训练数据。

外部数据

数据既然对模型的最终结果无比重要，那么就要通过各种方式来获取数据。最直接的，通过人工标注等方式获取更多的数据，但这种方法成本较高耗时也长，所以可以在网上寻找相似的公开带标签数据集，如果缺少此类数据，则可以获取相似的无标签数据，通过self-training的方式来训练模型；进一步如无标签数据也难以获得，则可以使用测试数据来做半监督学习。比赛中，选手通过大量相似的带标签数据以及大量无标签数据来做self-training【6】，整体提高1.5%左右的指标，也有选手使用测试数据做半监督学习，提高了0.8%左右。

模型

不同的任务，不同的数据，都可能需要不同的模型来处理。本次比赛是关于预训练的多任务学习（baseline模型结构可参考【7】），所以选择不同的预训练模型【8】，不同的多任务模型框架，改变细小的模型结构，都会对最终效果有影响。

大力出奇迹

本比赛中，对最终结果影响最大的，莫过于预训练模型的大小了，所谓大力出奇迹，越大的预训练模型，就包含了更多的信息，鲁棒性也更好。从各位选手的结果来看，bert-large同等规模（24层的bert类模型）的模型比bert-base（12层的bert类模型）平均高4.5%左右，而bert-xlarge【9】（36层的bert类模型）规模的模型比bert-large要高3%左右。

模型结构

本比赛是多任务学习，并且需要使用单个预训练模型，所以baseline大都是硬共享模式。三个任务中有两个是分类任务一个是匹配任务（也可以认为分类任务），基础的方法就是沿用最后一层cls或者pool层结果进行分类。针对这些具体任务，各个选手发挥主动能动性，使用了不同的网络结构来处理。

有选手使用bert最后4层的结果加上pooler层的结果来进行下游任务学习【10】，得到了1%左右的收益；
有选手则将多任务模型结构全部表示为共享形式，所有任务共享一种结构，只是对不同任务选择独立的query来获取当前任务的内容【11】；
有选手则根据不同的任务，选手lstm/transformer等结构来学习下游任务，提高了0.5%左右；
有选手并不使用cls的向量来学习下游任务，而是用整个句子的平均池化结果来训练，这比cls的方法提高了0.5%左右；
有选手则是先对三个任务分别训练，然后将三个模型的参数进行融合，再一起训练，该方法带来了1%左右的提高；
还有选手不把赛题看作是多任务学习问题，将各个任务混合在一起铺平，进行25分类训练，并在输入时新增了task type的embedding以区分任务。

LOSS

学习不同的任务，需要不同的loss，比如分类任务通常使用交叉熵，预测问题通常使用均方误差等等。loss函数，可以体现任务标签的分布情况，样本的比例，学到的信息大小与学习难度等等。所以一个更贴近数据情况的loss，能够让模型学习得更加鲁棒。在本次比赛中，选手也更具具体情况选择了不同的loss，但也并不是所有的策略都有效。比如像经典的focal loss【12】，或者根据F1指标修改的soft F1 loss【13】，或者是针对多任务学习的一些（动态）权重loss等等，在本次比赛中并没有起到明显效果。而有选手则使用了label smoothing【14】的方式对标签进行了平滑，提高了模型的鲁棒行，最终与emb mixup【21】（在后续正则化讲到）策略一起，将指标提高了0.5%左右。

优化方法

数据与模型都已经准备好，现在就需要学习模型，因为大部分神经网络学习都不能找到最优解，只能找到次优解。从应用的角度看，次优解已经可以使用，所以也没有必要追求最优解，但是通常情况下，次优解越接近最优解，应用效果就越好，所有实际过程中，研究人员也通过各种方式，试图获取一个更好的次优解。

学习率

当前最主流的神经网络学习方法是基于梯度下降的算法，如sgd,adma等。梯度下降方法中，学习率是个比较重要的超参数【15】，其控制着每次更新参数变化量的大小，不同的模型结构，不同的训练阶段，甚至不同的参数层，都可以通过调整学习率来获得更好的表现。大的学习率能够让模型学得更快，在一定程度上能让参数跳过某些局部值，但也容易引起模型的不稳定，容易过拟合等等；小的学习率可以让模型学习得更稳定，学习到一个较好的可行解，但也容易陷入局部值而不能跳出，且训练相对较慢。本次比赛中，有选手对bert之后的几层选用不同的学习率【10】，但并没有带来明显收益；而在使用较复杂的下游任务网络模型的时候，通常的学习率并不能让模型学习到有效信息，而更小的学习率则让模型学到了有效信息。

对抗训练

对抗训练【16】是提高神经网络鲁棒性的利器，如下图所示，减少了随机干扰对模型结果的影响，其思想是，在训练过程中，通过对输入进行扰动，而使神经网络适应这种改变，从而提高对对抗样本的鲁棒性。本次比赛中，选手也尝试了不同的对抗训练方法，有选手通过FGM【17】对抗训练获得了0.5%左右的提高，更有选手通过PDG【18】对抗训练提高了1.8%左右的成绩。

训练手段

通常训练神经网络都是使用梯度下降之类的方法训练至收敛，不过因为一些随机因素（随机初始化、随机训练样本、不确定的学习率等等）甚至是梯度下降本身的因素，这样的模型参数经常会有较大的随机性，所以一些研究人员通过参数平滑的方式，来降低模型参数的随机性，以及提高模型的泛化能力。比赛中，有选手使用EMA【19】算法（滑动平均），降低了参数的随机性，从而提高了模型准确性；也有同学使用SWA【20】算法（随机权重衰减），类似与集成模型的思想，将多个模型参数合并一起，从而提高模型的泛化能力，比赛中该方法提高了1%左右的成绩。

正则化

过拟合一直是模型训练中的一大难题，正则化就是针对处理过拟合的一些手段。狭义的正则化主要是对模型做约束，如L1/L2正则，dropout等等；广义的正则化则是一切能让模型降低测试误差的方法，如数据增广、调整loss、early_stop甚至是调整模型结构。从这个角度看，本文中的大部分内容，都可以认为是正则化手段。

word mixup

word mixup【21】可以认为是一种数据增广的方式，这种方法可以大量构造虚拟样本，其思路是随机抽取两个样本，将两个样本的word embedding按比例混合作为新的样本，新样本的标签也是这两个样本的标签按比例的集合。比赛中，选手用该方法与label smoothing一起，将指标提高了0.5%左右。

dropout

dropout【22】是常用的正则化手段之一，其主要思想是随机丢弃一些计算单元或通道，从而让各个计算单元或通道都能学到有效的信息，其思想也类似于bagging，减少了模型的方差。本次比赛中，选手使用dropout的方法，让指标提高了0.5%左右。

early stop

随着模型的不断训练，可能导致模型在训练数据集上过拟合，从而降低在测试集上的表现，如下图所示，随着训练次数的增加，测试误差先变小后变大。所以一个有效的early stop策略【23】，可以提高模型的泛化能力。本次比赛中，有效地利用early stop策略，可以提高1.8%左右的指标。

后处理

阈值优化

数据准备好了，模型也训练完成，模型的输出结果到最终的结果还要一个转换。对于通常的分类任务，可能直接使用0.5作为阈值分类就好，但对于具体任务而言，不同的阈值可能对最终结果有不少的影响。本次比赛中，也有选手对最终模型的阈值做了优化调整，且让最终指标提高了0.4%左右。

其他

未起效方法

比赛中，选手们也尝试过其他很多方法，其中有不少也并没有起到明显作用，比如利用训练数据与预训练模型再做预训练，以及一些对loss的调整，比如focal loss、soft f1 loss、动态loss调整等等。

训练技巧

比赛中，大部分选手使用使用的大模型，36层的bert模型在显存占用与训练速度上都堪忧。显存的角度，模型太大，就导致batch size比较小，为此有选手使用了累计多步更新一次参数的方法；速度的角度，模型本身训练已经比较慢，有很多tirck非常耗时，所以有选手就在训练初期使用原始模型训练，在一定轮次后，再加入trick继续训练，从而提高了训练效率。

自知识蒸馏

自知识蒸馏【24】在很多任务上也能提高模型的的效果（本次比赛中，并没有选手使用），因为其相对于原始的硬标签提供的信息，可以额外提供各个类别之间关系的信息。比如分类任务中，原始标签只会对某个样本标记为第一类/第二类，但自知识蒸馏可以把某个样本标记为80%的第一类20%的第二类，这样就提供了更多的标签之间的信息。

参考

【1】如何对文本数据进行预处理？：https://blog.csdn.net/weixin_36711901/article/details/79523698
【2】自然语言处理之数据预处理：https://bainingchao.github.io/2019/02/13/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E4%B9%8B%E6%95%B0%E6%8D%AE%E9%A2%84%E5%A4%84%E7%90%86/
【3】EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks：https://arxiv.org/pdf/1901.11196.pdf
【4】Unsupervised Data Augmentation for Consistency Training：https://arxiv.org/pdf/1904.12848.pdf
【5】A Visual Survey of Data Augmentation in NLP：https://amitness.com/2020/05/data-augmentation-for-nlp/
【6】Uncertainty-aware Self-training for Text Classification with Few Labels：https://arxiv.org/pdf/2006.15315.pdf
【7】Multi-Task Deep Neural Networks for Natural Language Understanding：https://arxiv.org/pdf/1901.11504.pdf
【8】NLP集大成之预训练模型综述
【9】https://github.com/dbiir/UER-py
【10】NLP重铸篇之BERT如何微调文本分类
【11】Same Representation, Different Attentions: Shareable Sentence Representation Learning from Multiple Tasks：https://arxiv.org/pdf/1804.08139v1.pdf
【12】Focal Loss for Dense Object Detection：https://arxiv.org/pdf/1708.02002.pdf
【13】The Unknown Benefits of using a Soft-F1 Loss in Classification Systems：https://towardsdatascience.com/the-unknown-benefits-of-using-a-soft-f1-loss-in-classification-systems-753902c0105d
【14】When Does Label Smoothing Help?：https://arxiv.org/pdf/1906.02629.pdf
【15】【AI不惑境】学习率和batchsize如何影响模型的性能？：https://zhuanlan.zhihu.com/p/64864995
【16】论文阅读：对抗训练（adversarial training）：https://zhuanlan.zhihu.com/p/104040055
【17】ADVERSARIAL TRAINING METHODS FOR SEMI-SUPERVISED TEXT CLASSIFICATION：https://arxiv.org/pdf/1605.07725.pdf
【18】Towards Deep Learning Models Resistant to Adversarial Attacks：https://arxiv.org/pdf/1706.06083.pdf
【19】机器学习模型性能提升技巧：指数加权平均（EMA）：https://blog.csdn.net/mikelkl/article/details/85227053
【20】Averaging Weights Leads to Wider Optima and Better Generalization：https://arxiv.org/pdf/1803.05407.pdf
【21】Augmenting Data with Mixup for Sentence Classification: An Empirical Study：https://arxiv.org/pdf/1905.08941.pdf
【22】深度学习中Dropout原理解析：https://zhuanlan.zhihu.com/p/38200980
【23】Early Stopping | but when?：https://www.researchgate.net/publication/2874749_Early_Stopping_-_But_When
【24】Self-Knowledge Distillation: A Simple Way for Better Generalization：https://arxiv.org/pdf/2006.12000.pdf
【25】NLP中文预训练模型泛化能力挑战赛：https://tianchi.aliyun.com/competition/entrance/531841/introduction
【26】中文语言理解测评基准(CLUE)：https://www.cluebenchmarks.com/index.html