SGLang 大模型推理框架

联合创作 · 2025-02-19 13:38

SGLang 是一个针对大语言模型和视觉语言模型的快速服务框架。它通过共同设计后端运行时和前端语言,让你与模型的交互更快、更可控。核心功能包括:

  • 快速后端运行时:通过 RadixAttention 提供高效的服务,用于前缀缓存、前跳约束解码、无开销 CPU 调度程序、连续批处理、token attention (paged attention)、张量并行、FlashInfer 内核、分块预填充和量化(FP8/INT4/AWQ/GPTQ)。
  • 灵活的前端语言:为编程 LLM 应用程序提供直观的界面,包括链式生成调用、高级提示、控制流、多模式输入、并行性和外部交互。
  • 广泛的模型支持:支持广泛的生成模型(Llama、Gemma、Mistral、QWen、DeepSeek、LLaVA 等)、嵌入模型(e5-mistral、gte、mcdse)和奖励模型(Skywork),并且易于扩展以集成新模型。
  • 活跃的社区:SGLang 是开源的,并由一个活跃的社区提供支持,得到了业界的广泛采用。

浏览 8
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报