OpenChatKit聊天机器人工具套件
OpenChatKit 提供了一个强大的开源基础,可以为各种应用程序创建专用和通用聊天机器人。
OpenChatKit 工具包包括一个指令调优的200亿参数语言模型、一个60亿参数调节模型和一个可扩展的检索系统,该检索系统用于包含来自自定义存储库的最新响应。它接受了OIG-43 M训练数据集的训练
OpenChatKit 包含以下代码:
- 训练 OpenChatKit 模型
- 使用模型测试推理
- 使用来自检索索引的额外上下文来扩充模型
要求
在开始之前,需要安装 PyTorch 和其他依赖项。
- 安装Miniconda 。
- 使用此存储库根目录下的
environment.yml
文件创建名为OpenChatKit的环境。
conda env create -f environment.yml
这个 repo 也使用 Git LFS 来管理一些文件,安装然后运行:
git lfs install
预训练权重
GPT-NeoXT-Chat-Base-20B 是 GPT-NeoX 的 20B 参数变体,在会话数据集上进行了微调。
可以在 Huggingface 上的GPT-NeoXT-Chat-Base-20B模型卡上找到更多详细信息。
数据集
聊天模型是在由LAION 、Together和Ontocord.ai构建的OIG数据集上训练的。
要从 Huggingface 下载数据集,请从存储库的根目录运行以下命令。
python data/OIG/prepare.py
命令完成后,数据将位于data/OIG/files
目录中。
数据贡献
通过贡献数据来帮助改进此聊天模型!有关详细信息,请参阅OpenDataHub存储库。
预训练基础模型
如上所述,聊天模型是 Eleuther AI 的 GPT-NeoX-20B 的微调变体。要下载 GPT-NeoX-20B 并准备好进行微调,请从存储库的根目录运行此命令。
python pretrained/GPT-NeoX-20B/prepare.py
该模型的权重在pretrained/GPT-NeoX-20B/EleutherAI_gpt-neox-20b
评论