Text Generation Inference大语言模型文本生成推理
用于文本生成推理的 Rust、Python 和 gRPC 服务器。在HuggingFace的生产中用于为 LLM 的 api 推理小部件提供支持。
特性:
- 使用简单的启动器为最流行的大型语言模型提供服务
 - Tensor Parallelism 用于在多个 GPU 上进行更快的推理
 - 使用服务器发送事件 (SSE) 的令牌流
 - 连续批处理传入请求以提高总吞吐量
 - 优化的变换器代码,用于在最流行的架构上使用flash-attention进行推理
 - 使用 bitsandbytes 进行量化
 - Safetensors weight loading
 - 使用 A Watermark 的大型语言模型的Watermarking
 - Logits warper(temperature scaling、top-p、top-k、repetition penalty,更多细节见transformers.LogitsProcessor)
 - Stop sequences
 - Log probabilities
 - 生产就绪(使用 Open Telemetry、Prometheus 指标进行分布式跟踪)
 
评论
