[LLM推理优化] 100+篇: 大模型推理各方向新发展整理
GiantPandaCV
共 1113字,需浏览 3分钟
·
2024-05-30 20:10
0x01 前言
从事大模型推理的工作有段时间了,业余有空的时候也会关注一下LLM近期发展的方向,以及一些新的paper。说实话,这些论文没法一一看完,大部分都只是看了摘要和结论,了解一下相关的技术对自己当前所做的业务是否有助益。整理和归纳是自己长期以来的习惯,对于LLM推理的发展也是如此,虽然无法一一深入到所有细节,但至少让自己保持一下对业界发展的敏感度应该还是可以的。
0x02 目录
半年多时间,大概收录了100多篇LLM推理相关的论文(paper with codes),既包括了常用的Attention优化、权重量化、KV Cache优化等技术,也涵盖了一些新方向,比如Early Exit、Long Context/Prompt KV Cache优化、Parallel Decoding/Sampling等。
0x03 内容
整理的内容都放在了GitHub:
这里不打算重复粘贴了,感兴趣的欢迎来GitHub阅读。
0x04 总结
TIPS: 欢迎大家提交PR增加LLM推理最新动向~
- The End -
长按二维码关注我们
本公众号专注:
1. 技术分享;
2. 学术交流;
3. 资料共享。
欢迎关注我们,一起成长!
评论
大模型LLM论文整理
LLMs 论文研读社作者:杨夕介绍:该仓库主要记录 LLMs 算法工程师相关的顶会论文研读笔记(多模态、PEFT、小样本QA问答、RAG、LMMs可解释性、Agents、CoT)LLMs 九层妖塔 地址:https://github.com/km1994/LLMsNineStoryDemonTowe
DayNightStudy
0
大模型LLM论文整理
LLMs 论文研读社作者:杨夕介绍:该仓库主要记录 LLMs 算法工程师相关的顶会论文研读笔记(多模态、PEFT、小样本QA问答、RAG、LMMs可解释性、Agents、CoT)LLMs 九层妖塔 地址:https://github.com/km1994/LLMsNineStoryDemonTowe
DayNightStudy
0
K8S, AI 大模型推理优化的新选择!
▼ 最近直播超级多, 预约 保你有收获 今晚直播: 《 大模型Agent应用落地实战 》 — 1 — AI 大模型训练和推理 Docker 容器和 Kubernetes 已经成为越来越多 AI 应用首选的运行环境和平台。一方面,Kubernetes 帮助用户...
架构之美
0
fastllm高性能大模型推理库
fastllm是纯C++实现的全平台llm加速库。支持Python调用,chatglm-6B级模型单卡可达10000+token/s,支持glm、llama、moss基座,手机端流畅运行。功能概述纯C
fastllm高性能大模型推理库
0
FBGEMM服务器端推理优化库
Facebook开源了FBGEMM,一个针对服务器推理优化的高性能核心库。与其他库不同,FBGEMM最大程度优化了CPU性能,通过降低精度计算来加速深度学习模型。目前Facebook已经在自己的服务中
FBGEMM服务器端推理优化库
0