YaLM 100B千亿参数预训练语言模型
YaLM 100B是一个类似 GPT 的神经网络,用于生成和处理文本。
该模型利用了 1000 亿个参数,在 800 个 A100 显卡和 1.7 TB 在线文本、书籍以及海量其他英文和俄文资源的集群上训练该模型花了 65 天时间。
设置
在下载权重之前,请确保有 200GB 的可用磁盘空间。该模型(代码基于 microsoft/DeepSpeedExamples/Megatron-LM-v1.1.5-ZeRO3)应该在具有张量并行性的多个 GPU 上运行。它在 4 个 (A100 80g) 和 8 个 (V100 32g) GPU 上进行了测试,能使用总计约 200GB 的 GPU 内存来正确划分权重维度(例如 16、64、128)的不同配置。
用法
可以从以下脚本开始:
-
examples/generate_interactive.sh
:从命令行交互式生成,尝试模型的最简单方法。 -
examples/generate_conditional_sampling.sh
:带采样策略的条件生成。默认使用top-p,随意更改温度或使用top-k。输入是 jsonlines(例如:examples/example_cond_input.json
),输出将是相同的 jsonlines,并且每行都添加了生成的文本字段。 -
examples/generate_conditional_greedy.sh
: 和上文一样,但是一代是贪婪的。 -
examples/generate_unconditional.sh
: 无条件生成。不使用输入,输出将是 jsonlines。
评论