Linly大规模中文语言模型

联合创作 · 2023-09-25 23:22

本项目向社区提供中文对话模型 Linly-ChatFlow 、中文基础模型 Linly-Chinese-LLaMA 及其训练数据。 模型基于 TencentPretrain 预训练框架实现,在 32 * A100 GPU 上全参数训练(Full-tuning), 将陆续开放 7B、13B、33B、65B 规模的中文模型权重。 中文基础模型以 LLaMA 为底座,利用中文和中英平行增量预训练,将它在英文上强大语言能力迁移到中文上。进一步,项目汇总了目前公开的多语言指令数据,对中文模型进行了大规模指令跟随训练,实现了 Linly-ChatFlow 对话模型。

此外,本项目还将公开从头训练的 Linly-Chinese-OpenLLaMA 模型,在 1TB 中英文语料预训练,针对中文优化使用字词结合tokenizer,模型将以 Apache 2.0 协议公开。

项目特点

  • 通过 Full-tuning (全参数训练)获得中文LLaMA模型,提供 TencentPretrain 与 HuggingFace 版本
  • 汇总中文开源社区指令数据,提供目前最大的中文 LLaMA 模型
  • 模型细节公开可复现,提供数据准备、模型训练和模型评估完整流程代码
  • 多种量化方案,支持 CUDA 和边缘设备部署推理
  • 基于公开数据从头训练 Chinese-OpenLLaMA ,针对中文优化字词结合tokenizer(进行中)

中文预训练语料 | 中文指令精调数据集 | 模型量化部署 | 领域微调示例

模型下载

使用须知

模型权重基于 GNU General Public License v3.0 协议,仅供研究使用,不能用于商业目的。 请确认在已获得许可的前提下使用本仓库中的模型。

7B基础模型 Linly-Chinese-LLaMA-7B 对话模型 Linly-ChatFlow-7B int4量化版本 Linly-ChatFlow
13B基础模型 Linly-Chinese-LLaMA-13B 对话模型 Linly-ChatFlow-13B
33B33B 基础模型
65B:训练中

HuggingFace模型
7B 基础模型 | 13B 基础模型  33B 基础模型
7B 对话模型 | 13B 对话模型

训练情况

模型仍在迭代中,本项目定期更新模型权重。

局限性

Linly-ChatFlow 完全基于社区开放语料训练,内容未经人工修正。受限于模型和训练数据规模,Linly-ChatFlow 目前的语言能力较弱,仍在不断提升中。开发团队表示已经观察到 Linly-ChatFlow 在多轮对话、逻辑推理、知识问答等场景具有明显缺陷,也可能产生带有偏见或有害内容。

此外,由于增量训练和指令精调阶段使用了相同的预训练目标(causal LM),发现在一些情况下模型会续写指令(例如,语义理解-Q4-13B),计划将在下个版本解决这一问题。

浏览 5
点赞
评论
收藏
分享

手机扫一扫分享

编辑
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑
举报