TRL使用强化学习来训练语言模型认领

0粉丝

TRL (Transformer Reinforcement Learning) 是 Hugging Face 推出的一个具有强化学习功能的全栈 Transformer 语言模型。TRL 是一个完整的堆栈库，Hugging Face 提供了一组工具来通过强化学习训练 Transformer 语言模型

简介

TRL (Transformer Reinforcement Learning) 是 Hugging Face 推出的一个具有强化学习功能的全栈 Transformer 语言模型。TRL 是一个完整的堆栈库，Hugging Face 提供了一组工具来通过强化学习训练 Transformer 语言模型... 更多

其它信息

授权协议

Apache-2.0

开发语言

Python

操作系统

跨平台

软件类型

开源软件

所属分类

神经网络/人工智能、 LLM（大语言模型）

开源组织

无

地区

不详

适用人群

未知

时光轴

里程碑1

LOG0

2023

09-26

轻识收录

打卡

评价

0.0（满分 10 分）0 个评分

什么是点评分

图片

表情

全部评价( 0)

推荐率 100%

推荐

白泽Baize使用 LoRA 训练的大语言模型

白泽是使用 LoRA 训练的开源聊天模型，它改进了开源大型语言模型 LLaMA，通过使用新生成的聊天

白泽Baize使用 LoRA 训练的大语言模型

白泽是使用LoRA训练的开源聊天模型，它改进了开源大型语言模型LLaMA，通过使用新生成的聊天语料库对LLaMA进行微调，该模型在单个GPU上运行，使其可供更广泛的研究人员使用。白泽目前包括四种英语模

Chinese BERT中文预训练语言模型

在自然语言处理领域中，预训练语言模型（Pre-trainedLanguageModels）已成为非常重要的基础技术。为了进一步促进中文信息处理的研究发展，我们发布了基于全词遮罩（WholeWordMa

Chinese BERT中文预训练语言模型

在自然语言处理领域中，预训练语言模型（Pre-trained Language Models）已成为

鹏程·盘古α中文预训练语言模型

鹏程·盘古α是业界首个2000亿参数以中文为核心的预训练生成语言模型，目前开源了两个版本：鹏程·盘古α和鹏程·盘古α增强版，并支持NPU和GPU两个版本，支持丰富的场景应用，在知识问答、知识检索、知识

鹏程·盘古α中文预训练语言模型

鹏程·盘古α是业界首个2000亿参数以中文为核心的预训练生成语言模型，目前开源了两个版本：鹏程·盘古

TextWorld基于 Python 的强化学习代理训练环境

TextWorld 是微软开源的一个可扩展的引擎，可用于生成和模拟文本游戏。你可以使用它来训练强化学

PERT基于 BERT 的预训练语言模型

在自然语言处理领域中，预训练语言模型（Pre-trained Language Models，PLM

FinGPT金融领域大型预训练语言模型

FinGPT 是金融领域大型预训练语言模型。它能理解和生成财经新闻，分析社交媒体上的公众情绪，解读金

TextWorld基于 Python 的强化学习代理训练环境

TextWorld是微软开源的一个可扩展的引擎，可用于生成和模拟文本游戏。你可以使用它来训练强化学习（RL）代理，以学习语言理解、记忆、规划和探索等。 TextWorld采用Python编写，可视为用