baichuan-7B开源中英文大模型

联合创作 · 2023-09-25 23:48

baichuan-7B 是开源的大规模预训练模型，基于 Transformer 结构，在大约 1.2 万亿 tokens 上训练的 70 亿参数模型，支持中英双语，上下文窗口长度为 4096。

整体模型基于标准的Transformer结构，采用了和LLaMA一样的模型设计

位置编码：rotary-embedding是现阶段被大多模型采用的位置编码方案，具有更好的外延效果。虽然训练过程中最大长度为4096，但是实际测试中模型可以很好的扩展到5000个tokens上，如下图：

激活层：SwiGLU,Feedforward变化为(8/3)倍的隐含层大小，即11008

Layer-Normalization: 基于RMSNorm的Pre-Normalization

数据

原始数据包括开源的中英文数据和自行抓取的中文互联网数据，以及部分高质量知识性数据，总量超过10T。

参考相关数据工作，频率和质量是数据处理环节重点考虑的两个维度。基于启发式规则和质量模型打分，对原始数据集进行篇章和句子粒度的过滤。在全量数据上，利用局部敏感哈希方法，对篇章和句子粒度做滤重。

整体流程如下所示：

经过不断的调整和多轮测试，最终确认了一个在下游任务上表现最好的中英文配比。

使用了一个基于自动学习的数据权重策略，对不同类别的数据进行配比。

浏览 29

点赞

收藏

分享

举报

评论

图片

表情

CPM-Bee中英文双语大语言模型

CPM-Bee 是一个完全开源、允许商用的百亿参数中英文基座模型。它采用 Transformer

CPM-Bee中英文双语大语言模型

CPM-Bee是一个完全开源、允许商用的百亿参数中英文基座模型。它采用Transformer自回归架构（auto-regressive），使用万亿级高质量语料进行预训练，拥有强大的基础能力。CPM-B

重磅开源：超轻量3.5M中英文OCR模型！

TransGPT开源交通大模型

TransGPT 是开源交通大模型，主要致力于在真实交通行业中发挥实际价值。它能够实现交通情况预测、

TransGPT开源交通大模型

TransGPT是开源交通大模型，主要致力于在真实交通行业中发挥实际价值。它能够实现交通情况预测、智能咨询助手、公共交通服务、交通规划设计、交通安全教育、协助管理、交通事故报告和分析、自动驾驶辅助系统

又一个数学大模型开源了~

NLP从入门到放弃

llama.unity开源大语言模型插件

开源大语言模型llama的unity插件。系统WindowsMacOS...参考llama.cpp：https://github.com/ggerganov/llama.cppFreeAvatar：h

BELLE开源中文对话大模型

BELLE:BeEveryone'sLargeLanguagemodelEngine（开源中文对话大模型）本项目目标是促进中文对话大模型开源社区的发展，愿景做能帮到每一个人的LLMEngine。现阶段

太强了！10大开源大模型！

本文约2700字，建议阅读9分钟本文将详细介绍最新的顶级开源LLMs大模型。大型语言模型（LLMs）无疑是人工智能革命中的核心驱动力，它们建立在Transformer架构的稳固基石之上，并根据缩放定律不断演进。简而言之，缩放定律揭示了一个重要原则：随着数据规模的扩大、参数数量的增加以及计算能力的提升

太强了！10大开源大模型！

新机器视觉

点赞

收藏

分享

举报