点击上方“视学算法”，选择加"星标"或“置顶”

重磅干货，第一时间送达

卷友们好，我是rumor。

其实我这个卷都不配叫卷，真正的NLP极卷之地，乃是GLUE与CLUE这两个榜单。

两年多前BERT刚出来的时候，每每GLUE江山易主我都跟着激动一把，但慢慢刺激久了就麻木了，再看到新闻反而不关注技术，而是佩服同学们的毅力。尤其是达摩院的StructBERT老哥，不管我隔多久去看一眼GLUE，它都稳稳在上面，给人一种说不出的安全感。我还专门去打听过，据说作者老哥刷榜只是顺带，主要还在做业务，真真卷出了我的想象力。

GLUE无法触及大家的G点之后，又开始了CLUE之旅。去年刚正式发布，今年就被卷爆了。

记得今年年初的时候我们旁边MT-BERTs组也在刷，恰好前一天腾讯LICHEE模型刚发稿登上了榜首，第二天MT-BERTs就登顶了，我们小群里还看热闹，想着别人看到腾讯的文章，结果打开CLUE是美团第一，不知道LICHEE的心理阴影面积有多大。

更刺激的是4月份，阿里刚发稿公布PLUG模型登顶分类榜单，过两天就看到了华为Pangu发稿说又给刷了，这年头不仅刷榜卷，发稿也卷，不快的话过两天SOTA就又换人了。

而老牌NLP厂商搜狗也不肝示弱，BERTSG在4月份被Pangu刷下去之后，5月份又刷了回来。

直到昨天又出现了新的榜首，来自QQ浏览器搜索的Motian同学。

所以目前中国选手的战况是，百度ERNIE同学仍然在玩GLUE，处于世界级霸主的地位，阿里、华为双管齐下，派出StructBERT、PLUG、NEZHA、Pangu两路夹击，腾讯依旧主张赛马机制，派出LICHEE、BERTSG、Motian多位健将。其他厂如平安、我团、OPPO、创新工场（TBH）采取游击战术，打完了就撤。

其实我最佩服大家的是不光分数卷，名字也卷的不行。

国际化的思路是围绕芝麻街起名，国内则是充分发挥了想象力。

从华为哪吒开始就一发不可收拾，荔枝、盘古、孟子、摩天相继出世，还有智源的悟道、文汇。

一个比一个恢弘磅礴，起名的时间可能比预训练的时间都长。

看着大佬们这么卷，我不禁关掉B站，开始学习如何提升预训练模型。

下面就让我们从有限的公开博客里，看看各位大体量选手都进行了哪些优化，迎面走来的分别是：

腾讯Motian^[1]：总榜第一、十亿参数、1TB训练数据、encoder架构
搜狗BERTSG^[2]：总榜第二、百亿参数、2TB训练数据、encoder架构
华为Pangu^[3]：总榜第四、千亿参数、40TB训练数据、encoder-decoder架构
阿里PLUG^[4]：分类榜第三、百亿参数、1TB训练数据、encoder-decoder架构

预训练优化

第一个公认的提分方法是把单纯的MLM改成WWM，融入更多中文词汇、短语的知识，Motian和BERTSG都有采用。

其次除了MLM外，各位选手还采用了多任务方式，比如Motian加入了搜索点击曝光任务；BERTSG参考了Cross thought和对比学习，学到更多句子级别特征，同时加入了文章标题生成和段落顺序预测任务；Pangu的encoder则是基于StructBERT，其中分别加入了WSO（打乱词序）以及改进的NSP任务。

在模型参数量提升后，收敛速度也成了问题，可以用分阶段预训练解决。Motian参考BERT使用两阶段预训练，先训128长度，再512长度；对于encoder-decoder架构，Pangu采取的方法是先训练基于StructBERT的encoder，之后加上decoder进行生成模型训练，前90%的时间保留MLM，后10%去掉。

Motian的博客中还提到了一个消除MLM预训练-精调不一致的方法，不进行Mask，而是采用随机词/同义词替换，也获得了一些提升。

位置编码

绝对位置编码存在以下问题：

预训练数据足够多时，可学习的位置编码比sinusoidal更好，但可延展性差，长度不能超出范围
通过对Attention计算的分解可以发现，位置编码相乘之前还会经过参数矩阵的变化，之后不一定能保存位置信息
在文本中，term之间的相对位置其实比绝对位置重要（比如北京到深圳vs深圳到北京，更重要的其实是谁在前面）

因此NEZHA、XLNET、T5、DeBERTa等模型都采用了相对位置编码的方案，Motian也使用了相对位置编码，发现可以有1个百分点的提升。

模型结构优化

虽然对于Transformer结构的改进已经很多了，但实际在大模型刷榜时用的并不多，比较有效的策略是把Post-LN改为Pre-LN，实际发现Post-LN在训练超大模型时，若没有设置好warmup，会导致收敛效果变差。

训练速度优化

大模型不可避免需要并行优化，不然一张卡根本放不下。

加速方法可以参考这篇文章，总结下来就是数据并行、重计算、Tensor并行、Pipeline模型并行、优化器模型并行。

速度优化对于算法工程师的挑战还是很大的，经常会出很莫名的bug，或者好不容易搞好了但是效果莫名下降。刚一点的厂干脆自己做框架，比如百度Paddle和华为MindSpore，阿里也和自家云计算平台进行了合作。

总结

其实博客看下来，真正的干货不算多，很多特定任务的trick都没有公开，比如GLUE上做匹配任务之前都会先在MNLI、SNLI上精调，CLUE上估计也会针对不同任务和数据集有特殊的策略。

Anyway，虽然刷榜有时候被认为是人力过剩的出口，但对于这种热榜来说，真正有提升是很难的，每次都是千分位上的前进，大部分的novelty有限，但也正是一小步一小步的改进才能迸发出更大的提升。

但一个不好的现象是榜单对模型体量没有限制，纯粹变成了大厂之间的游戏，即使有小模型榜单，刷出来也没有总榜的影响力大，大家觉得性价比低也就不去刷了，只能通过论文来对比单模型方法上的提升。

最后，我发现起名是真的难，英文的套路是围绕芝麻街，而国内则不甘心延续别人的套路，历史名人、神话故事、水果、抽象词汇一起上，搞得我想了一会儿也没想到更好的。

参考资料

[1]

Motian: https://mp.weixin.qq.com/s/HQL0Hk49UR6kVNtrvcXEGA

[2]

BERTSG: https://pcedu.pconline.com.cn/1410/14101830.html

[3]

Pangu: https://www.sohu.com/a/463292432_491575

[4]

PLUG: https://finance.sina.com.cn/tech/2021-04-19/doc-ikmyaawc0523891.shtml

点个在看 paper不断！

你刷我，我刷你，霸榜CLUE甜蜜蜜

预训练优化

位置编码

模型结构优化

训练速度优化

总结

参考资料