YaLM 100B千亿参数预训练语言模型

联合创作 · 2023-09-25 23:03

YaLM 100B是一个类似 GPT 的神经网络，用于生成和处理文本。

该模型利用了 1000 亿个参数，在 800 个 A100 显卡和 1.7 TB 在线文本、书籍以及海量其他英文和俄文资源的集群上训练该模型花了 65 天时间。

设置

在下载权重之前，请确保有 200GB 的可用磁盘空间。该模型（代码基于 microsoft/DeepSpeedExamples/Megatron-LM-v1.1.5-ZeRO3）应该在具有张量并行性的多个 GPU 上运行。它在 4 个 (A100 80g) 和 8 个 (V100 32g) GPU 上进行了测试，能使用总计约 200GB 的 GPU 内存来正确划分权重维度（例如 16、64、128）的不同配置。

用法

可以从以下脚本开始：

examples/generate_interactive.sh：从命令行交互式生成，尝试模型的最简单方法。
examples/generate_conditional_sampling.sh：带采样策略的条件生成。默认使用top-p，随意更改温度或使用top-k。输入是 jsonlines（例如：examples/example_cond_input.json），输出将是相同的 jsonlines，并且每行都添加了生成的文本字段。
examples/generate_conditional_greedy.sh: 和上文一样，但是一代是贪婪的。
examples/generate_unconditional.sh: 无条件生成。不使用输入，输出将是 jsonlines。

浏览 22

点赞

收藏

分享

举报

评论

图片

表情

一文了解预训练语言模型！

博文视点Broadview

鹏程·盘古α中文预训练语言模型

鹏程·盘古α是业界首个2000亿参数以中文为核心的预训练生成语言模型，目前开源了两个版本：鹏程·盘古

鹏程·盘古α中文预训练语言模型

鹏程·盘古α是业界首个2000亿参数以中文为核心的预训练生成语言模型，目前开源了两个版本：鹏程·盘古α和鹏程·盘古α增强版，并支持NPU和GPU两个版本，支持丰富的场景应用，在知识问答、知识检索、知识

Chinese BERT中文预训练语言模型

在自然语言处理领域中，预训练语言模型（Pre-trained Language Models）已成为

Chinese BERT中文预训练语言模型

在自然语言处理领域中，预训练语言模型（Pre-trainedLanguageModels）已成为非常重要的基础技术。为了进一步促进中文信息处理的研究发展，我们发布了基于全词遮罩（WholeWordMa

VLE视觉-语言多模态预训练模型

VLE (Vision-Language Encoder) 是一种基于预训练文本和图像编码器的图像-

PERT基于 BERT 的预训练语言模型

在自然语言处理领域中，预训练语言模型（Pre-trainedLanguageModels，PLMs）已成为非常重要的基础技术。在近两年，哈工大讯飞联合实验室发布了多种中文预训练模型资源以及相关配套工具

FinGPT金融领域大型预训练语言模型

FinGPT是金融领域大型预训练语言模型。它能理解和生成财经新闻，分析社交媒体上的公众情绪，解读金融报告如年度报告、季度收益报告等，进行市场预测，以及通过学习用户的个人偏好，提供个性化的投资建议。Fi

VLE视觉-语言多模态预训练模型

VLE (Vision-Language Encoder)是一种基于预训练文本和图像编码器的图像-文本多模态理解模型，可应用于如视觉问答、图像-文本检索等多模态判别任务。特别地，在对语言理解和推理能力

PERT基于 BERT 的预训练语言模型

在自然语言处理领域中，预训练语言模型（Pre-trained Language Models，PLM