Text Generation Inference大语言模型文本生成推理
用于文本生成推理的 Rust、Python 和 gRPC 服务器。在HuggingFace的生产中用于为 LLM 的 api 推理小部件提供支持。
特性:
- 使用简单的启动器为最流行的大型语言模型提供服务
- Tensor Parallelism 用于在多个 GPU 上进行更快的推理
- 使用服务器发送事件 (SSE) 的令牌流
- 连续批处理传入请求以提高总吞吐量
- 优化的变换器代码,用于在最流行的架构上使用flash-attention进行推理
- 使用 bitsandbytes 进行量化
- Safetensors weight loading
- 使用 A Watermark 的大型语言模型的Watermarking
- Logits warper(temperature scaling、top-p、top-k、repetition penalty,更多细节见transformers.LogitsProcessor)
- Stop sequences
- Log probabilities
- 生产就绪(使用 Open Telemetry、Prometheus 指标进行分布式跟踪)
评论