SGLang 大模型推理框架

联合创作 · 2025-02-19 13:38

SGLang 是一个针对大语言模型和视觉语言模型的快速服务框架。它通过共同设计后端运行时和前端语言，让你与模型的交互更快、更可控。核心功能包括：

快速后端运行时：通过 RadixAttention 提供高效的服务，用于前缀缓存、前跳约束解码、无开销 CPU 调度程序、连续批处理、token attention (paged attention)、张量并行、FlashInfer 内核、分块预填充和量化（FP8/INT4/AWQ/GPTQ）。

灵活的前端语言：为编程 LLM 应用程序提供直观的界面，包括链式生成调用、高级提示、控制流、多模式输入、并行性和外部交互。

广泛的模型支持：支持广泛的生成模型（Llama、Gemma、Mistral、QWen、DeepSeek、LLaVA 等）、嵌入模型（e5-mistral、gte、mcdse）和奖励模型（Skywork），并且易于扩展以集成新模型。

活跃的社区：SGLang 是开源的，并由一个活跃的社区提供支持，得到了业界的广泛采用。

浏览 20

点赞

收藏

分享

举报

评论

图片

表情

SGLang 大模型推理框架

SGLang 大模型推理框架

KTransformers 大模型推理优化框架

‌KTransformers‌是由清华大学的KVCache.AIV

KTransformers 大模型推理优化框架

‌KTransformers‌是由清华大学的KVCache.AI团队与趋境科技联合发布的开&

Mooncake 大模型推理架构

月之暗面 Kimi 和清华大学 MADSys 实验室联合 9#AISoft、阿里云、华为存&

Mooncake 大模型推理架构

月之暗面Kimi和清华大学MADSys实验&#

大模型推理再提速！英伟达推出TensorRT-LLM，专为提升大模型推理速度优化的全新框架

fastllm高性能大模型推理库

fastllm是纯C++实现的全平台llm加速库。支持Python调用，chatglm-6B级模型单卡可达10000+token/s，支持glm、llama、moss基座，手机端流畅运行。功能概述纯C

fastllm高性能大模型推理库

fastllm 是纯 C++ 实现的全平台 llm 加速库。支持 Python 调用，chatglm

大模型的模型压缩与有效推理综述

1 介绍本文对大型语言模型的压缩和效率推理进行了综述。大型语言模型基于Transformer架构，具有强大的性能，但也带来了巨大的内存和计算成本。本文从算法角度对大型语言模型的压缩和效率推理方法进行了分类，包括量化、剪枝、知识蒸馏、紧凑架构设计和动态网络。大型语言模型有两个显著特点：（1

HUSKY:一个优化大语言模型多步推理的新代理框架

来源：Deephub Imba本文约2000字，建议阅读5分钟本文介绍了优化大语言模型：HUSKY。‍‍‍推理被高度认可为生成人工智能的下一个前沿领域。通过推理，我们可以将任务分解为更小的子集并单独解决这些子集。例如以前的论文：思维链、思维树、思维骨架和反射，都是最近解决LLM推理能力的一些技术。此

点赞

收藏

分享

举报