RWKV-LM线性 Transformer 模型

联合创作 · 2023-09-25 23:07

RWKV 是结合了 RNN 和 Transformer 的语言模型，适合长文本，运行速度较快，拟合性能较好，占用显存较少，训练用时较少。

RWKV 整体结构依然采用 Transformer Block 的思路，其整体结构如图所示：

相较于原始 Transformer Block 的结构，RWKV 将 self-attention 替换为 Position Encoding 和 TimeMix，将 FFN 替换为 ChannelMix。其余部分与 Transfomer 一致。

浏览 15

点赞

收藏

分享

举报

评论

图片

表情

首个线性注意力Transformer大模型：TransNormerLLM提出！

人工智能与算法学习

解析Transformer模型

经典分类：线性判别分析模型！

Python机器学习-线性模型

等风来也等你

What？UFO！ | UFO-ViT用X-Norm让你的Transformer模型回归线性复杂度

AI人工智能初学者

视频详解Transformer模型（2）

人工智能与算法学习

视频详解Transformer模型（1）

人工智能与算法学习

【NLP】Transformer模型深度解读

机器学习初学者

Transformer模型大串讲【附视频】

AI人工智能初学者

Transformer Decoder-Only 模型批量生成 Trick

点赞

收藏

分享

举报