LoRA大型语言模型的低秩适应

联合创作 · 2023-09-25 23:16

LoRA 是 Low-Rank Adaptation of Large Language Models 的简写，即大型语言模型的低秩适应。它冻结了预训练模型的权重，并将可训练的秩分解矩阵注入到 Transformer 架构的每一层中，大大减少了下游任务的可训练参数数量。

与使用 Adam 微调的 GPT-3 175B 相比，LoRA 可以减少 10,000 倍的可训练参数数量和 3 倍的 GPU 内存需求。LoRA 在 RoBERTa、DeBERTa、GPT-2 和 GPT-3 上的模型质量表现与微调相当或更好，尽管可训练参数更少，训练吞吐量更高，而且与适配器不同，没有额外的推理延迟。

使用 RoBERTa (Liu et al., 2019) base and large 和 DeBERTa (He et al., 2020) XXL 1.5B 在 GLUE 基准上获得了与完全微调相当或优于完全微调的结果，同时只训练和存储了一小部分参数。

单击下面的数字下载 RoBERTa 和 DeBERTa LoRA 检查点

在 GPT-2 上，LoRA 优于完全微调和其他高效调优方法，例如适配器（Houlsby 等人，2019 年）和前缀调优（Li 和 Liang，2021 年）。下面是 E2E NLG Challenge、DART 和 WebNLG 的评估：

浏览 21

点赞

收藏

分享

举报

评论

图片

表情

MPT-30B大型语言模型

MPT-30B是MosaicPretrainedTransformer(MPT)模型系列的一部分，它使用了一个为高效训练和推理而优化的transformer架构，并在1Ttokens的英文文本和代码上

GPT-2基于 transformer 的大型语言模型

GPT-2 是一种基于 transformer 的大型语言模型，具有 15 亿个参数，在 800 万

GPT-2基于 transformer 的大型语言模型

GPT-2是一种基于transformer 的大型语言模型，具有15亿个参数，在800万网页数据集上进行训练。它是论文《语言模型是无人监督的多任务学习者》（LanguageModelsareUnsup

Lit-Parrot大型语言模型的可破解实现

Lit-Parrot 是基于 nanoGPT 的 StableLM/Pythia/INCITE 语言

Lit-Parrot大型语言模型的可破解实现

Lit-Parrot是基于nanoGPT的StableLM/Pythia/INCITE语言模型的实现。支持flashattention、LLaMA-Adapter微调、预训练。最先进的开源大型语言模型

Jigsaw Datase提高大型语言模型性能的工具

Jigsaw 是微软推出的一种可以提高大型语言模型性能（如 GPT-3、Codex 等）的新工具。J

PaLM 2谷歌下一代大型语言模型

PaLM 2 是谷歌推出的下一代大型语言模型。擅长高级推理任务，包括代码和数学、分类和问答、翻译和多

白泽Baize使用 LoRA 训练的大语言模型

白泽是使用 LoRA 训练的开源聊天模型，它改进了开源大型语言模型 LLaMA，通过使用新生成的聊天

白泽Baize使用 LoRA 训练的大语言模型

白泽是使用LoRA训练的开源聊天模型，它改进了开源大型语言模型LLaMA，通过使用新生成的聊天语料库对LLaMA进行微调，该模型在单个GPU上运行，使其可供更广泛的研究人员使用。白泽目前包括四种英语模

Jigsaw Datase提高大型语言模型性能的工具

Jigsaw是微软推出的一种可以提高大型语言模型性能（如GPT-3、Codex等）的新工具。Jigsaw部署了理解程序语法和语义的后处理技术，然后利用用户反馈来提高未来的性能；该工具旨在使用多模式输入

点赞

收藏

分享

举报