Mooncake 大模型推理架构联合创作 · 2025-02-18 07:50月之暗面 Kimi 和清华大学 MADSys 实验室联合 9#AISoft、阿里云、华为存储、面壁智能、趋境科技等产学研力量共同发布开源项目 Mooncake,共建以 KVCache 为中心的大模型推理架构。Mooncake 采用以 KVCache 为中心的分解式架构,将预填充和解码集群分开。它还利用 GPU 集群未充分利用的 CPU、DRAM 和 SSD 资源来实现 KVCache 的分解缓存。浏览 5点赞 评论 收藏 分享 手机扫一扫分享分享 举报 评论图片表情视频评价全部评论推荐 Mooncake 大模型推理架构月之暗面Kimi和清华大学MADSys实验三种大模型架构肉眼品世界0SGLang 大模型推理框架SGLang 大模型推理框架0SGLang 大模型推理框架SGLang 是一个针对大语言模型和视觉语言模型的快速服务框架&fastllm高性能大模型推理库fastllm 是纯 C++ 实现的全平台 llm 加速库。支持 Python 调用,chatglmKTransformers 大模型推理优化框架KTransformers是由清华大学的KVCache.AI团队与趋境科技联合发布的开&fastllm高性能大模型推理库fastllm是纯C++实现的全平台llm加速库。支持Python调用,chatglm-6B级模型单卡可达10000+token/s,支持glm、llama、moss基座,手机端流畅运行。功能概述纯CKTransformers 大模型推理优化框架KTransformers是由清华大学的KVCache.AIV大模型的模型压缩与有效推理综述1 介绍本文对大型语言模型的压缩和效率推理进行了综述。大型语言模型基于Transformer架构,具有强大的性能,但也带来了巨大的内存和计算成本。本文从算法角度对大型语言模型的压缩和效率推理方法进行了分类,包括量化、剪枝、知识蒸馏、紧凑架构设计和动态网络。大型语言模型有两个显著特点:(1[LLM推理优化] 100+篇: 大模型推理各方向新发展整理GiantPandaCV2点赞 评论 收藏 分享 手机扫一扫分享分享 举报