RWKV-LM线性 Transformer 模型认领

0粉丝

RWKV 是结合了 RNN 和 Transformer 的语言模型，适合长文本，运行速度较快，拟合性能较好，占用显存较少，训练用时较少。RWKV 整体结构依然采用 Transformer Block 的思路，其整体结构如图所示：相较于原始 Transformer Block 的结构，RWKV 将 s

简介

RWKV 是结合了 RNN 和 Transformer 的语言模型，适合长文本，运行速度较快，拟合性能较好，占用显存较少，训练用时较少。RWKV 整体结构依然采用 Transformer Block 的思路，其整体结构如图所示：相较于原始 Transformer Block 的结构，RWKV 将 s... 更多

技术信息

开源协议

Apache

开发语言

Python

操作系统

跨平台

软件类型

开源软件

所属分类

神经网络/人工智能、 LLM（大语言模型）

开源组织

无

地区

国产

适用人群

未知

时光轴

里程碑1

LOG0

2023

09-25

轻识收录

打卡

评价

0.0（满分 10 分）0 个评分

什么是点评分

图片

表情

全部评价( 0)

推荐率 100%

推荐

GPT-2基于 transformer 的大型语言模型

GPT-2是一种基于transformer 的大型语言模型，具有15亿个参数，在800万网页数据集上进行训练。它是论文《语言模型是无人监督的多任务学习者》（LanguageModelsareUnsup

GPT-2基于 transformer 的大型语言模型

GPT-2 是一种基于 transformer 的大型语言模型，具有 15 亿个参数，在 800 万

LAPACK线性数学库

LAPACK，其名为Linear Algebra PACKage的缩写，是一以Fortran编程语言

GLPKGNU线性编程工具

GLPK (GNU Linear Programming Kit:GNU线性编程工具)用于建立线性规

CSLinearLayoutViewiOS 线性布局视图

CSLinearLayoutView 实现了在 iOS 上的线性布局视图

通义千问-7B基于 Transformer 的大语言模型

通义千问-7B（Qwen-7B）是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型，在超大规模的预训练数据上进行训练得到。预训练数据类型多样

GLPKGNU线性编程工具

GLPK(GNULinearProgrammingKit:GNU线性编程工具)用于建立线性规划LP和混合型整数规划MIP问题的建模语言，并对模型进行最优化求解。类似的商业产品是美国Lindo公司的Li

LAPACK线性数学库

LAPACK，其名为LinearAlgebraPACKage的缩写，是一以Fortran编程语言写就，用于数值计算的函式集。LAPACK提供了丰富的工具函式，可用于诸如解多元线性方程式、线性系统方程组

CSLinearLayoutViewiOS 线性布局视图

CSLinearLayoutView实现了在iOS上的线性布局视图

通义千问-7B基于 Transformer 的大语言模型

通义千问-7B（Qwen-7B）是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-