Lit-Parrot大型语言模型的可破解实现
Lit-Parrot 是基于 nanoGPT 的 StableLM/Pythia/INCITE 语言模型的实现。支持 flash attention、LLaMA-Adapter 微调、预训练。
最先进的开源大型语言模型的可破解实现:
- StabilityAI StableLM
- EleutherAI Pythia
- Together RedPajama-INCITE
- TII UAE Falcon
此实现基于Lit-LLaMA和nanoGPT ,由Lightning Fabric提供支持。
可以按照以下说明下载权重:
设计原则
这个存储库遵循 openness through clarity 的主要原则。
Lit-Parrot 是:
- 简单:没有样板的单文件实现。
- 正确:在数值上等同于原始模型。
- 优化:在消费类硬件上或大规模运行。
- 开源:没有附加条件。
避免代码重复不是目标。可读性和可破解性是。
评论
MPT-30B大型语言模型
MPT-30B是MosaicPretrainedTransformer(MPT)模型系列的一部分,它使用了一个为高效训练和推理而优化的transformer架构,并在1Ttokens的英文文本和代码上
MPT-30B大型语言模型
0
GPT-2基于 transformer 的大型语言模型
GPT-2 是一种基于 transformer 的大型语言模型,具有 15 亿个参数,在 800 万
GPT-2基于 transformer 的大型语言模型
0
GPT-2基于 transformer 的大型语言模型
GPT-2是一种基于transformer 的大型语言模型,具有15亿个参数,在800万网页数据集上进行训练。它是论文《语言模型是无人监督的多任务学习者》(LanguageModelsareUnsup
GPT-2基于 transformer 的大型语言模型
0
LoRA大型语言模型的低秩适应
LoRA是 Low-RankAdaptationofLargeLanguageModels的简写,即大型语言模型的低秩适应。它冻结了预训练模型的权重,并将可训练的秩分解矩阵注入到Transformer
LoRA大型语言模型的低秩适应
0
Jigsaw Datase提高大型语言模型性能的工具
Jigsaw是微软推出的一种可以提高大型语言模型性能(如GPT-3、Codex等)的新工具。Jigsaw部署了理解程序语法和语义的后处理技术,然后利用用户反馈来提高未来的性能;该工具旨在使用多模式输入
Jigsaw Datase提高大型语言模型性能的工具
0
PaLM 2谷歌下一代大型语言模型
PaLM2 是谷歌推出的下一代大型语言模型。擅长高级推理任务,包括代码和数学、分类和问答、翻译和多语言能力以及自然语言生成。谷歌声称PaLM2是一种最先进的语言模型,要优于其之前所有的LLM,包括Pa
PaLM 2谷歌下一代大型语言模型
0