YaLM 100B千亿参数预训练语言模型

联合创作 · 2023-09-25

YaLM 100B是一个类似 GPT 的神经网络,用于生成和处理文本。

该模型利用了 1000 亿个参数,在 800 个 A100 显卡和 1.7 TB 在线文本、书籍以及海量其他英文和俄文资源的集群上训练该模型花了 65 天时间。

设置

在下载权重之前,请确保有 200GB 的可用磁盘空间。该模型(代码基于 microsoft/DeepSpeedExamples/Megatron-LM-v1.1.5-ZeRO3应该在具有张量并行性的多个 GPU 上运行。它在 4 个 (A100 80g) 和 8 个 (V100 32g) GPU 上进行了测试,能使用总计约 200GB 的 GPU 内存来正确划分权重维度(例如 16、64、128)的不同配置。

用法

可以从以下脚本开始:

  • examples/generate_interactive.sh:从命令行交互式生成,尝试模型的最简单方法。
  • examples/generate_conditional_sampling.sh:带采样策略的条件生成。默认使用top-p,随意更改温度或使用top-k。输入是 jsonlines(例如:examples/example_cond_input.json),输出将是相同的 jsonlines,并且每行都添加了生成的文本字段。
  • examples/generate_conditional_greedy.sh: 和上文一样,但是一代是贪婪的。
  • examples/generate_unconditional.sh: 无条件生成。不使用输入,输出将是 jsonlines。
浏览 9
点赞
评论
收藏
分享

手机扫一扫分享

编辑
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑
举报