卷友们好，我是rumor。

之前我学习Prompt范式的源起PET后就鸽了很久，相信卷友们已经把Prompt的论文都追完了，把我远远地落在了后面。周末我不甘被卷，奋起直追，连刷三篇paper，希望能赶上大家学习的步伐。

Prefix-tuning- Optimizing continuous prompts for generation
P-tuning-GPT Understands, Too
Prompt-tuning-The Power of Scale for Parameter-Efficient Prompt Tuning

自动化Prompt

Prompt范式的第一个阶段，就是在输入上加Prompt文本，再对输出进行映射。但这种方式怎么想都不是很优雅，无法避免人工的介入。即使有方法可以批量挖掘，但也有些复杂（有这个功夫能标不少高质量语料），而且模型毕竟是黑盒，对离散文本输入的鲁棒性很差：

怎么办呢？离散的不行，那就连续的呗

用固定的token代替prompt，拼接上文本输入，当成特殊的embedding输入，这样在训练时也可以对prompt进行优化，就减小了prompt挖掘、选择的成本。

如何加入Prompt

前面的想法非常单纯，但实际操作起来还是需要些技巧的。

Prefix-tuning

Prefix-tuning是做生成任务，它根据不同的模型结构定义了不同的Prompt拼接方式，在GPT类的自回归模型上采用[PREFIX, x, y]，在T5类的encoder-decoder模型上采用[PREFIX, x, PREFIX', y]：

值得注意的还有三个改动：

把预训练大模型freeze住，因为大模型参数量大，精调起来效率低，毕竟prompt的出现就是要解决大模型少样本的适配
作者发现直接优化Prompt参数不太稳定，加了个更大的MLP，训练完只保存MLP变换后的参数就行了
实验证实只加到embedding上的效果不太好，因此作者在每层都加了prompt的参数，改动较大

P-tuning

P-tuning是稍晚些的工作，主要针对NLU任务。对于BERT类双向语言模型采用模版(P1, x, P2, [MASK], P3)，对于单向语言模型采用(P1, x, P2, [MASK])：

同时加了两个改动：

考虑到预训练模型本身的embedding就比较离散了（随机初始化+梯度传回来小，最后只是小范围优化），同时prompt本身也是互相关联的，所以作者先用LSTM对prompt进行编码
在输入上加入了anchor，比如对于RTE任务，加上一个问号变成[PRE][prompt tokens][HYP]?[prompt tokens][MASK]后效果会更好

P-tuning的效果很好，之前的Prompt模型都是主打小样本效果，而P-tuning终于在整个数据集上超越了精调的效果：