GPT-2基于 transformer 的大型语言模型

联合创作 · 2023-09-25 23:01

GPT-2 是一种基于 transformer 的大型语言模型，具有 15 亿个参数，在 800 万网页数据集上进行训练。

它是论文《语言模型是无人监督的多任务学习者》（Language Models are Unsupervised Multitask Learners）的代码实现。

目前发布了 GPT-2 的小型（117M 参数）和中型（345M 参数）版本，还没有发布更大的模型，但已经发布了一个数据集供研究人员研究行为。该存储库旨在成为研究人员和工程师尝试使用 GPT-2 的起点。

浏览 23

点赞

收藏

分享

举报

评论

图片

表情

MPT-30B大型语言模型

MPT-30B是MosaicPretrainedTransformer(MPT)模型系列的一部分，它使用了一个为高效训练和推理而优化的transformer架构，并在1Ttokens的英文文本和代码上

基于思维链的大型语言模型问题生成方法

人工智能与算法学习

基于思维链的大型语言模型问题生成方法

通义千问-7B基于 Transformer 的大语言模型

通义千问-7B（Qwen-7B）是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型，在超大规模的预训练数据上进行训练得到。预训练数据类型多样

通义千问-7B基于 Transformer 的大语言模型

通义千问-7B（Qwen-7B）是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-

Lit-LLaMA ️基于 nanoGPT 的语言模型

Lit-LLaMA是一个基于nanoGPT的LLaMA语言模型的实现，支持量化、LoRA微调、预训练。设计原则简单：单一文件实现，没有样板代码正确：在数值上等同于原始模型优化：在消费者硬件上或大规模运

Lit-LLaMA ️基于 nanoGPT 的语言模型

Lit-LLaMA ️基于 nanoGPT 的语言模型

LoRA大型语言模型的低秩适应

LoRA是 Low-RankAdaptationofLargeLanguageModels的简写，即大型语言模型的低秩适应。它冻结了预训练模型的权重，并将可训练的秩分解矩阵注入到Transformer

Lit-Parrot大型语言模型的可破解实现

Lit-Parrot 是基于 nanoGPT 的 StableLM/Pythia/INCITE 语言

Lit-Parrot大型语言模型的可破解实现

Lit-Parrot是基于nanoGPT的StableLM/Pythia/INCITE语言模型的实现。支持flashattention、LLaMA-Adapter微调、预训练。最先进的开源大型语言模型

点赞

收藏

分享

举报