Text Generation Inference大语言模型文本生成推理

联合创作 · 2023-09-25 23:48

用于文本生成推理的 Rust、Python 和 gRPC 服务器。在HuggingFace的生产中用于为 LLM 的 api 推理小部件提供支持。

特性：

使用简单的启动器为最流行的大型语言模型提供服务
Tensor Parallelism 用于在多个 GPU 上进行更快的推理
使用服务器发送事件 (SSE) 的令牌流
连续批处理传入请求以提高总吞吐量
优化的变换器代码，用于在最流行的架构上使用flash-attention进行推理
使用 bitsandbytes 进行量化
Safetensors weight loading
使用 A Watermark 的大型语言模型的Watermarking
Logits warper（temperature scaling、top-p、top-k、repetition penalty，更多细节见transformers.LogitsProcessor）
Stop sequences
Log probabilities
生产就绪（使用 Open Telemetry、Prometheus 指标进行分布式跟踪）

浏览 22

点赞

收藏

分享

举报

评论

图片

表情

StarCoder代码生成语言模型

StarCoder（150 亿参数）是 Hugging Face 联合 ServiceNow 发布的

StarCoder代码生成语言模型

StarCoder（150亿参数）是HuggingFace联合ServiceNow发布的免费大型语言模型，该模型经过训练主要用途是可以生成代码，目的是为了对抗GitHubCopilot和亚马逊Code

Bark文本提示生成音频模型

Bark 是由 Suno 创建的基于转换器的文本到音频模型。Bark 可以生成高度逼真的多语言语音以

Bark文本提示生成音频模型

Bark是由Suno创建的基于转换器的文本到音频模型。Bark可以生成高度逼真的多语言语音以及其他音频-包括音乐、背景噪音和简单的音效。该模型还可以产生非语言交流，如大笑、叹息和哭泣。为了支持研究社区

大语言模型推理的价格战,靠规模取胜?

文经授权转载宝玉老师的个人博客(微博@宝玉xp )，链接 https://baoyu.io/tra

OPT-175B大语言模型

OPT-175B是Meta开源的大语言模型，拥有超过1750亿个参数——和GPT-3相当。相比GPT-3，OPT-175B的优势在于它完全免费。Meta还公布了代码库、开发过程日志、数据、研究论文和其

OPT-175B大语言模型

OPT-175B 是 Meta 开源的大语言模型，拥有超过 1750 亿个参数——和 GPT-3 相

LLaMA大语言模型

LLaMA 语言模型全称为 "Large Language Model Meta AI"，是 Met

LLaMA大语言模型

LLaMA语言模型全称为"LargeLanguageModelMetaAI"，是Meta的全新大型语言模型（LLM），这是一个模型系列，根据参数规模进行了划分（分为70亿、130亿、330亿和650亿

RedPajama大语言模型

RedPajama项目旨在创建一套领先的全开源大语言模型。目前，该项目已完成了第一步，成功复制了LLaMA训练数据集超过1.2万亿个数据token。该项目由Together、Ontocord.ai、E

点赞

收藏

分享

举报