Mooncake 大模型推理架构

联合创作 · 2025-02-18 07:50

月之暗面 Kimi 和清华大学 MADSys 实验室联合 9#AISoft、阿里云、华为存储、面壁智能、趋境科技等产学研力量共同发布开源项目 Mooncake,共建以 KVCache 为中心的大模型推理架构。

Mooncake 采用以 KVCache 为中心的分解式架构,将预填充和解码集群分开。它还利用 GPU 集群未充分利用的 CPU、DRAM 和 SSD 资源来实现 KVCache 的分解缓存。

浏览 5
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报