GPT4AllGPT4 平替版本
GPT4All 是基于 LLaMa 的 ~800k GPT-3.5-Turbo Generations 训练出来的助手式大型语言模型,这个模型接受了大量干净的助手数据的训练,包括代码、故事和对话,可作为 GPT4 的平替。
在 M1 Mac 上运行的示例:
自己试试
-  从  Direct Link or [Torrent-Magnet] 下载 
gpt4all-lora-quantized.bin文件。 -  克隆此仓库,导航至 
chat,并将下载的文件放在那里。 -  为操作系统运行适当的命令: 
  
- M1 Mac/OSX: 
cd chat;./gpt4all-lora-quantized-OSX-m1 - Linux: 
cd chat;./gpt4all-lora-quantized-linux-x86 - Windows (PowerShell): 
cd chat;./gpt4all-lora-quantized-win64.exe - Intel Mac/OSX: 
cd chat;./gpt4all-lora-quantized-OSX-intel 
 - M1 Mac/OSX: 
 
注意:GPU 上的完整模型(需要 16GB 显存)在定性评估中表现更好。
Python客户端
CPU 接口
要使用带有 CPU 接口的 python 客户端运行,首先使用安装nomic 客户端 ,然后可以使用以下脚本与 GPT4All 进行交互:pip install nomic
from nomic.gpt4all import GPT4All m = GPT4All() m.open() m.prompt('write me a story about a lonely computer') 
显卡接口
有两种方法可以在 GPU 上启动和运行此模型。此处的设置比 CPU 模型稍微复杂一些。
-  克隆 nomic 客户端 repo 并在主目录中运行 
pip install .[GPT4All]。 -  运行 
pip install nomic并从此处构建的 wheels 安装额外的 deps 
完成后,可以使用如下脚本在 GPU 上运行模型:
from nomic.gpt4all import GPT4AllGPU m = GPT4AllGPU(LLAMA_PATH) config = {'num_beams': 2, 'min_new_tokens': 10, 'max_length': 100, 'repetition_penalty': 2.0} out = m.generate('write me a story about a lonely computer', config) print(out) 
其中 LLAMA_PATH 是 Huggingface Automodel 兼容的 LLAMA 模型的路径,Nomic 目前无法分发此文件。
可以在配置中传递任何 huggingface 生成配置参数。
路线图
短期
- (进行中)基于 GPTJ 训练 GPT4All 模型以缓解 llama 分布问题。
 - (进行中)为此模型创建改进的 CPU 和 GPU 接口。
 - (未开始)集成 llama.cpp 绑定
 - (未开始)为模型创建一个良好的对话聊天界面。
 - (未开始)允许用户选择加入并提交他们的聊天记录以进行后续培训
 
中期
-  (未开始)将 GPT4All 与Atlas集成以允许文档检索。 
  
- 被基于 GPTJ 的 GPT4All 屏蔽
 
 - (未开始)将 GPT4All 与 Langchain 集成。
 - (进行中)构建简单的自定义训练脚本以允许用户微调模型。
 
长期
- (未开始)允许任何人使用 Atlas 为后续 GPT4All 版本整理训练数据。
 - (进行中)使 AI 民主化。
 
再现性
训练有素的 LoRa 权重:
- gpt4all-lora(四个完整的训练阶段): https ://huggingface.co/nomic-ai/gpt4all-lora
 - gpt4all-lora-epoch-2(三个完整的训练阶段)https://huggingface.co/nomic-ai/gpt4all-lora-epoch-2
 
原始数据:
评论
