[LLM推理优化] 100+篇: 大模型推理各方向新发展整理

共 1113字，需浏览 3分钟

·

2024-05-30 20:10

作者丨DefTruth

来源丨https://zhuanlan.zhihu.com/p/693680304

编辑丨GiantPandaCV

0x01 前言

从事大模型推理的工作有段时间了，业余有空的时候也会关注一下LLM近期发展的方向，以及一些新的paper。说实话，这些论文没法一一看完，大部分都只是看了摘要和结论，了解一下相关的技术对自己当前所做的业务是否有助益。整理和归纳是自己长期以来的习惯，对于LLM推理的发展也是如此，虽然无法一一深入到所有细节，但至少让自己保持一下对业界发展的敏感度应该还是可以的。

0x02 目录

半年多时间，大概收录了100多篇LLM推理相关的论文（paper with codes），既包括了常用的Attention优化、权重量化、KV Cache优化等技术，也涵盖了一些新方向，比如Early Exit、Long Context/Prompt KV Cache优化、Parallel Decoding/Sampling等。

0x03 内容

整理的内容都放在了GitHub:

https://github.com/DefTruth/Awesome-LLM-Inference

这里不打算重复粘贴了，感兴趣的欢迎来GitHub阅读。

0x04 总结

TIPS: 欢迎大家提交PR增加LLM推理最新动向~

- The End -

GiantPandaCV

长按二维码关注我们

本公众号专注：

1. 技术分享；

2. 学术交流；

3. 资料共享。

欢迎关注我们，一起成长！

浏览 144

2点赞

收藏

分享

举报

评论

图片

表情

大模型LLM论文整理

LLMs 论文研读社作者：杨夕介绍：该仓库主要记录 LLMs 算法工程师相关的顶会论文研读笔记（多模态、PEFT、小样本QA问答、RAG、LMMs可解释性、Agents、CoT）LLMs 九层妖塔地址：https://github.com/km1994/LLMsNineStoryDemonTowe

大模型LLM论文整理

LLMs 论文研读社作者：杨夕介绍：该仓库主要记录 LLMs 算法工程师相关的顶会论文研读笔记（多模态、PEFT、小样本QA问答、RAG、LMMs可解释性、Agents、CoT）LLMs 九层妖塔地址：https://github.com/km1994/LLMsNineStoryDemonTowe

K8S, AI 大模型推理优化的新选择!

▼ 最近直播超级多，预约保你有收获今晚直播：《大模型Agent应用落地实战》 — 1 — AI 大模型训练和推理 Docker 容器和 Kubernetes 已经成为越来越多 AI 应用首选的运行环境和平台。一方面，Kubernetes 帮助用户...

fastllm高性能大模型推理库

fastllm 是纯 C++ 实现的全平台 llm 加速库。支持 Python 调用，chatglm

fastllm高性能大模型推理库

fastllm是纯C++实现的全平台llm加速库。支持Python调用，chatglm-6B级模型单卡可达10000+token/s，支持glm、llama、moss基座，手机端流畅运行。功能概述纯C

大模型推理再提速！英伟达推出TensorRT-LLM，专为提升大模型推理速度优化的全新框架

FBGEMM服务器端推理优化库

Facebook开源了FBGEMM，一个针对服务器推理优化的高性能核心库。与其他库不同，FBGEMM最大程度优化了CPU性能，通过降低精度计算来加速深度学习模型。目前Facebook已经在自己的服务中

FBGEMM服务器端推理优化库

Facebook 开源了 FBGEMM，一个针对服务器推理优化的高性能核心库。与其他库不同，FBG

大模型的模型压缩与有效推理综述

1 介绍本文对大型语言模型的压缩和效率推理进行了综述。大型语言模型基于Transformer架构，具有强大的性能，但也带来了巨大的内存和计算成本。本文从算法角度对大型语言模型的压缩和效率推理方法进行了分类，包括量化、剪枝、知识蒸馏、紧凑架构设计和动态网络。大型语言模型有两个显著特点：（1

HUSKY:一个优化大语言模型多步推理的新代理框架

来源：Deephub Imba本文约2000字，建议阅读5分钟本文介绍了优化大语言模型：HUSKY。‍‍‍推理被高度认可为生成人工智能的下一个前沿领域。通过推理，我们可以将任务分解为更小的子集并单独解决这些子集。例如以前的论文：思维链、思维树、思维骨架和反射，都是最近解决LLM推理能力的一些技术。此