Linly大规模中文语言模型-技术圈

本项目向社区提供中文对话模型 Linly-ChatFlow 、中文基础模型 Linly-Chinese-LLaMA 及其训练数据。模型基于 TencentPretrain 预训练框架实现，在 32 * A100 GPU 上全参数训练（Full-tuning），将陆续开放 7B、13B、33B、65B 规模的中文模型权重。中文基础模型以 LLaMA 为底座，利用中文和中英平行增量预训练，将它在英文上强大语言能力迁移到中文上。进一步，项目汇总了目前公开的多语言指令数据，对中文模型进行了大规模指令跟随训练，实现了 Linly-ChatFlow 对话模型。

此外，本项目还将公开从头训练的 Linly-Chinese-OpenLLaMA 模型，在 1TB 中英文语料预训练，针对中文优化使用字词结合tokenizer，模型将以 Apache 2.0 协议公开。

项目特点

通过 Full-tuning （全参数训练）获得中文LLaMA模型，提供 TencentPretrain 与 HuggingFace 版本
汇总中文开源社区指令数据，提供目前最大的中文 LLaMA 模型
模型细节公开可复现，提供数据准备、模型训练和模型评估完整流程代码
多种量化方案，支持 CUDA 和边缘设备部署推理
基于公开数据从头训练 Chinese-OpenLLaMA ，针对中文优化字词结合tokenizer（进行中）

中文预训练语料 | 中文指令精调数据集 | 模型量化部署 | 领域微调示例

模型下载

使用须知

模型权重基于 GNU General Public License v3.0 协议，仅供研究使用，不能用于商业目的。请确认在已获得许可的前提下使用本仓库中的模型。

7B：基础模型 Linly-Chinese-LLaMA-7B｜对话模型 Linly-ChatFlow-7B｜ int4量化版本 Linly-ChatFlow
13B：基础模型 Linly-Chinese-LLaMA-13B｜对话模型 Linly-ChatFlow-13B
33B：33B 基础模型
65B：训练中

HuggingFace模型
7B 基础模型 | 13B 基础模型｜ 33B 基础模型
 7B 对话模型 | 13B 对话模型

训练情况

模型仍在迭代中，本项目定期更新模型权重。

局限性

Linly-ChatFlow 完全基于社区开放语料训练，内容未经人工修正。受限于模型和训练数据规模，Linly-ChatFlow 目前的语言能力较弱，仍在不断提升中。开发团队表示已经观察到 Linly-ChatFlow 在多轮对话、逻辑推理、知识问答等场景具有明显缺陷，也可能产生带有偏见或有害内容。

此外，由于增量训练和指令精调阶段使用了相同的预训练目标（causal LM），发现在一些情况下模型会续写指令（例如，语义理解-Q4-13B），计划将在下个版本解决这一问题。