通义千问-7B基于 Transformer 的大语言模型
通义千问-7B(Qwen-7B) 是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。同时,在Qwen-7B的基础上,使用对齐机制打造了基于大语言模型的AI助手Qwen-7B-Chat。Qwen-7B系列模型的特点包括:
- 大规模高质量预训练数据:使用了超过2.2万亿token的自建大规模预训练数据集进行语言模型的预训练。数据集包括文本和代码等多种数据类型,覆盖通用领域和专业领域。
- 优秀的模型性能:相比同规模的开源模型,Qwen-7B在多个评测数据集上具有显著优势,甚至超出12-13B等更大规模的模型。评测评估的能力范围包括自然语言理解与生成、数学运算解题、代码生成等。
- 更好地支持多语言:基于更大词表的分词器在分词上更高效,同时它对其他语言表现更加友好。用户可以在Qwen-7B的基础上更方便地训练特定语言的7B语言模型。
- 8K的上下文长度:Qwen-7B及Qwen-7B-Chat均能支持8K的上下文长度, 允许用户输入更长的prompt。
- 支持插件调用:Qwen-7B-Chat针对插件调用相关的对齐数据做了特定优化,当前模型能有效调用插件以及升级为Agent。
评测表现
Qwen-7B在多个全面评估自然语言理解与生成、数学运算解题、代码生成等能力的评测数据集上,包括MMLU、C-Eval、GSM8K、HumanEval、WMT22等,均超出了同规模大语言模型的表现,甚至超出了如12-13B参数等更大规模的语言模型。
Model | MMLU | C-Eval | GSM8K | HumanEval | WMT22 (en-zh) |
---|---|---|---|---|---|
LLaMA-7B | 35.1 | - | 11.0 | 10.5 | 8.7 |
LLaMA 2-7B | 45.3 | - | 14.6 | 12.8 | 17.9 |
Baichuan-7B | 42.3 | 42.8 | 9.7 | 9.2 | 26.6 |
ChatGLM2-6B | 47.9 | 51.7 | 32.4 | 9.2 | - |
InternLM-7B | 51.0 | 52.8 | 31.2 | 10.4 | 14.8 |
Baichuan-13B | 51.6 | 53.6 | 26.6 | 12.8 | 30.0 |
LLaMA-13B | 46.9 | 35.5 | 17.8 | 15.8 | 12.0 |
LLaMA 2-13B | 54.8 | - | 28.7 | 18.3 | 24.2 |
ChatGLM2-12B | 56.2 | 61.6 | 40.9 | - | - |
Qwen-7B | 56.7 | 59.6 | 51.6 | 24.4 | 30.6 |
评论