LongLLaMA加强版 LLaMA 模型

联合创作 · 2023-09-26 00:05

LongLLaMA 是一个能够处理长上下文的大型语言模型,能够处理 256k tokens 甚至更多的长上下文。它基于 OpenLLaMA 并使用 Focused Transformer (FoT) 方法进行微调。

开发团队在 Apache 2.0 许可下发布了 LongLLaMA 模型的较小 3B 基本变体(未调整指令),并在 Hugging Face 上支持更长上下文的推理代码。模型权重可以作为现有实现中 LLaMA 的直接替代品(对于最多 2048 个 tokens 的短上下文)。此外,还提供评估结果以及与原始 OpenLLaMA 模型的比较。请继续关注进一步的更新。

LongLLaMA 具有三层用于上下文扩展。至关重要的是,LongLLaMA 能够推断的上下文长度远远超过训练时的长度:8k。例如,在密钥检索任务中,它可以处理长度为 256k 的输入。

LongLLaMA-3B LongLLaMA-3Bv1.1 LongLLaMA-7B
(coming soon)
LongLLaMA-13B
(coming soon)
Source model OpenLLaMA-3B OpenLLaMA-3Bv2 - -
Source model tokens 1T 1 T - -
Fine-tuning tokens 10B 5B - -
Memory layers 6, 12, 18 6, 12, 18 - -
浏览 16
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报