Falcon-40B因果解码器大模型

联合创作 · 2023-09-25 23:42

Falcon-40B 是 400 亿参数的因果解码器模型，它在 RefinedWeb 的 1000B token 上进行训练，并使用精选数据集增强。它在 Huggingface 的 OpenLLM 排行榜上排首位，其性能优于 LLaMA、MPT、RedPajama 和 StableLM 等。

Falcon-40B 使用自定义工具构建，包含一个独特的数据管道，该管道从公开网络中提取训练数据。

Falcon 从公网上抓取内容构建好 Falcon 的初始预训练数据集后，再使用 CommonCrawl 转储，进行大量过滤（包括删除机器生成的文本和成人内容），并消除重复数据，最终得到一个由近 5 万亿个 token 组成的庞大预训练数据集。

Falcon 一共包含 4 个版本：

Falcon-40B：在1万亿token上进行训练，并使用精选语料库进行了增强；主要接受英语、德语、西班牙语、法语的训练，不会中文。
Falcon-40B-Instruct：在Baize上进行了微调，使用FlashAttention和多查询对推理架构进行了优化，是一个即用型聊天模型。
Falcon-7B：参数70亿，在1.5万亿token上进行了训练，作为一个原始的预训练模型，还需要用户针对大多数用例进一步微调。
Falcon-RW-7B：参数70亿，在3500亿token上进行训练，该模型旨在用作“研究神器”，单独研究各种在网络数据进行训练的影响。

浏览 15

点赞

收藏

分享

举报

评论

图片

表情

v8-native-prototypeTurboFan 解码器

v8-native-prototype是用于TurboFan的原型本地解码器。示例代码：void TestWasmDecodingSpeed() { byte code[] = {kStmtSetL

libogg++Ogg 解码器

libogg++是一个C++库，用来处理Ogg多流传输格式。它被设计为独立的解码器，是一个线程安全的解码器。

v8-native-prototypeTurboFan 解码器

v8-native-prototype 是用于 TurboFan 的原型本地解码器。示例代码：voi

libogg++Ogg 解码器

libogg++ 是一个 C++ 库，用来处理 Ogg 多流传输格式。它被设计为独立的解码器，是一个

Opus音频解码器

Opus是一个完全开源，免费的，通用性高的音频解码器。Opus在网络上有着无与伦比的交互式语音和音乐传播功能，但也可以用来存储，在流媒体上使用。Opus遵从InternetEngineeringTas

JLayerMP3 解码器库

JLayer是一个库，可为JAVA（tm）平台实时解码/播放/转换MPEG 1/2 / 2.5 La

Opus音频解码器

Opus 是一个完全开源，免费的，通用性高的音频解码器。Opus 在网络上有着无与伦比的交互式语音和

AC3Filter多媒体解码器

AC3Filter是一个用来回放多媒体文件的高质量DirectShow音频解码及处理过滤器，可以被绝大多数多媒体播放器自动调用。通过这个软件，你可以播放AVI容器或其它容器，比如MKV中的AC3和DT

AC3Filter多媒体解码器

AC3Filter 是一个用来回放多媒体文件的高质量 DirectShow 音频解码及处理过滤器，可

Opus音频解码器

Opus是一个完全开源，免费的，通用性高的音频解码器。Opus在网络上有着无与伦比的交互式语音和音乐传播功能，但也可以用来存储，在流媒体上使用。Opus遵从InternetEngineeringTas