SGLang 大模型推理框架
SGLang 是一个针对大语言模型和视觉语言模型的快速服务框架。它通过共同设计后端运行时和前端语言,让你与模型的交互更快、更可控。核心功能包括:
- 快速后端运行时:通过 RadixAttention 提供高效的服务,用于前缀缓存、前跳约束解码、无开销 CPU 调度程序、连续批处理、token attention (paged attention)、张量并行、FlashInfer 内核、分块预填充和量化(FP8/INT4/AWQ/GPTQ)。
- 灵活的前端语言:为编程 LLM 应用程序提供直观的界面,包括链式生成调用、高级提示、控制流、多模式输入、并行性和外部交互。
- 广泛的模型支持:支持广泛的生成模型(Llama、Gemma、Mistral、QWen、DeepSeek、LLaVA 等)、嵌入模型(e5-mistral、gte、mcdse)和奖励模型(Skywork),并且易于扩展以集成新模型。
- 活跃的社区:SGLang 是开源的,并由一个活跃的社区提供支持,得到了业界的广泛采用。
评论