Lit-Parrot大型语言模型的可破解实现

联合创作 · 2023-09-25 23:46

Lit-Parrot 是基于 nanoGPT 的 StableLM/Pythia/INCITE 语言模型的实现。支持 flash attention、LLaMA-Adapter 微调、预训练。

最先进的开源大型语言模型的可破解实现：

StabilityAI StableLM

EleutherAI Pythia

Together RedPajama-INCITE

TII UAE Falcon

此实现基于Lit-LLaMA和nanoGPT ，由 Lightning Fabric提供支持。

可以按照以下说明下载权重：

StableLM

Pythia

Redpajama-INCITE

Falcon

设计原则

这个存储库遵循 openness through clarity 的主要原则。

Lit-Parrot 是：

简单：没有样板的单文件实现。

正确：在数值上等同于原始模型。

优化：在消费类硬件上或大规模运行。

开源：没有附加条件。

避免代码重复不是目标。可读性和可破解性是。

浏览 18

点赞

收藏

分享

举报

评论

图片

表情

MPT-30B大型语言模型

MPT-30B是MosaicPretrainedTransformer(MPT)模型系列的一部分，它使用了一个为高效训练和推理而优化的transformer架构，并在1Ttokens的英文文本和代码上

GPT-2基于 transformer 的大型语言模型

GPT-2 是一种基于 transformer 的大型语言模型，具有 15 亿个参数，在 800 万

GPT-2基于 transformer 的大型语言模型

GPT-2是一种基于transformer 的大型语言模型，具有15亿个参数，在800万网页数据集上进行训练。它是论文《语言模型是无人监督的多任务学习者》（LanguageModelsareUnsup

LoRA大型语言模型的低秩适应

LoRA是 Low-RankAdaptationofLargeLanguageModels的简写，即大型语言模型的低秩适应。它冻结了预训练模型的权重，并将可训练的秩分解矩阵注入到Transformer

DeepMind又放大招!用大型语言模型实现可信推理,距离模型可解释...

大数据文摘

Jigsaw Datase提高大型语言模型性能的工具

Jigsaw是微软推出的一种可以提高大型语言模型性能（如GPT-3、Codex等）的新工具。Jigsaw部署了理解程序语法和语义的后处理技术，然后利用用户反馈来提高未来的性能；该工具旨在使用多模式输入

PaLM 2谷歌下一代大型语言模型

PaLM2 是谷歌推出的下一代大型语言模型。擅长高级推理任务，包括代码和数学、分类和问答、翻译和多语言能力以及自然语言生成。谷歌声称PaLM2是一种最先进的语言模型，要优于其之前所有的LLM，包括Pa

书生·浦语多语言大型语言模型

InternLM（书生·浦语）是在过万亿 token 数据上训练的多语千亿参数基座模型。通过多阶段的

书生·浦语多语言大型语言模型

InternLM（书生·浦语）是在过万亿token数据上训练的多语千亿参数基座模型。通过多阶段的渐进式训练，InternLM基座模型具有较高的知识水平，在中英文阅读理解、推理任务等需要较强思维能力的场

Jigsaw Datase提高大型语言模型性能的工具

Jigsaw 是微软推出的一种可以提高大型语言模型性能（如 GPT-3、Codex 等）的新工具。J

点赞

收藏

分享

举报