Mooncake 大模型推理架构

联合创作 · 2025-02-18 07:50

月之暗面 Kimi 和清华大学 MADSys 实验室联合 9#AISoft、阿里云、华为存储、面壁智能、趋境科技等产学研力量共同发布开源项目 Mooncake，共建以 KVCache 为中心的大模型推理架构。

Mooncake 采用以 KVCache 为中心的分解式架构，将预填充和解码集群分开。它还利用 GPU 集群未充分利用的 CPU、DRAM 和 SSD 资源来实现 KVCache 的分解缓存。

浏览 11

点赞

收藏

分享

举报

评论

图片

表情

Mooncake 大模型推理架构

月之暗面Kimi和清华大学MADSys实验&#

三种大模型架构

肉眼品世界

SGLang 大模型推理框架

SGLang 大模型推理框架

SGLang 大模型推理框架

SGLang 是一个针对大语言模型和视觉语言模型的快速服务框架&

fastllm高性能大模型推理库

fastllm 是纯 C++ 实现的全平台 llm 加速库。支持 Python 调用，chatglm

KTransformers 大模型推理优化框架

‌KTransformers‌是由清华大学的KVCache.AI团队与趋境科技联合发布的开&

fastllm高性能大模型推理库

fastllm是纯C++实现的全平台llm加速库。支持Python调用，chatglm-6B级模型单卡可达10000+token/s，支持glm、llama、moss基座，手机端流畅运行。功能概述纯C

KTransformers 大模型推理优化框架

‌KTransformers‌是由清华大学的KVCache.AIV

大模型的模型压缩与有效推理综述

1 介绍本文对大型语言模型的压缩和效率推理进行了综述。大型语言模型基于Transformer架构，具有强大的性能，但也带来了巨大的内存和计算成本。本文从算法角度对大型语言模型的压缩和效率推理方法进行了分类，包括量化、剪枝、知识蒸馏、紧凑架构设计和动态网络。大型语言模型有两个显著特点：（1

[LLM推理优化] 100+篇: 大模型推理各方向新发展整理

点赞

收藏

分享

举报