大模型对齐阶段的Scaling Laws
大数据文摘
共 5908字,需浏览 12分钟
·
2024-04-03 01:55
大数据文摘受权转载自李rumor
随着过去一年大模型技术的发展,数据、模型尺寸scale up后的能力已经不容置疑,scaling law也被越来越多研究者重视起来。在预训练资源消耗如此大的情况下,掌握scaling law有众多优点:
-
提前预测最终模型效果,知道每次训练的大概能到什么程度,要是不及预期可以根据预算再进行调整 -
在小尺寸模型上做置信的实验,进行数据、算法策略验证,降低实验的时间、资源成本 -
在真正的大规模预训练中,随时监测模型效果是否符合预期
目前对于scaling law的研究主要是在预训练阶段,而对齐阶段在数据、算法策略上的实验也会有很大成本,今天我们就来看两篇对齐阶段的工作,分别研究了SFT和RLHF阶段影响效果的重要因素,希望能给大家带来一些新的insight。
01 精调saling Law
When Scaling Meets LLM Finetuning - The Effect of Data, Model and Finetuning Method[1]
这篇文章来自Google,发表在ICLR2024。作者主要在文本翻译任务上,研究了精调数据数量、模型尺寸、预训练数据数量、PET参数量(prompt tuning、lora)对效果的影响。
精调和预训练比较接近,得到的公式也较接近,可以用幂函数来表示:
-
精调数据存在scaling law,虽然现在大家都认同小数量高质数据能取得很好的效果,但当下游任务确定时怼量也是一种选择 -
对比全参数精调FMT和PET精调的结果可以发现,FMT需要更多的数据,也能取得更好的效果。而数据量少时更适合用PET,prompt tuning在数据量少的时候更好,lora在数据量多的时候更好更稳定。另外PET的精调方式很依赖模型尺寸和预训练数据,当基座很强时,PET和FMT的差距会缩小 -
同时作者也分析了一下精调模型在其他任务上的泛化效果,发现精调后模型可以泛化到相似的任务,由于PET对参数的改动较小,因此PET的方式泛化会更好
RLHF Scaling Law
When a measure becomes a target, it ceases to be a good measure.
-
根据当前模型偏离的KL散度,来预测模型何时到达最高的真实分数,提升评估效率 -
根据使用的RM,来预测模型能达到什么效果,或者根据效果倒推要用多大的模型
总结
When Scaling Meets LLM Finetuning - The Effect of Data, Model and Finetuning Method: https://arxiv.org/abs/2402.17193
[2]DeepSeek LLM: https://arxiv.org/abs/2401.02954
评论