[LLM推理优化] 100+篇: 大模型推理各方向新发展整理

共 1113字,需浏览 3分钟

 ·

2024-05-30 20:10



作者丨DefTruth
来源丨https://zhuanlan.zhihu.com/p/693680304
编辑丨GiantPandaCV


0x01 前言

从事大模型推理的工作有段时间了,业余有空的时候也会关注一下LLM近期发展的方向,以及一些新的paper。说实话,这些论文没法一一看完,大部分都只是看了摘要和结论,了解一下相关的技术对自己当前所做的业务是否有助益。整理和归纳是自己长期以来的习惯,对于LLM推理的发展也是如此,虽然无法一一深入到所有细节,但至少让自己保持一下对业界发展的敏感度应该还是可以的。

0x02 目录

半年多时间,大概收录了100多篇LLM推理相关的论文(paper with codes),既包括了常用的Attention优化、权重量化、KV Cache优化等技术,也涵盖了一些新方向,比如Early Exit、Long Context/Prompt KV Cache优化、Parallel Decoding/Sampling等。

0x03 内容

整理的内容都放在了GitHub:

https://github.com/DefTruth/Awesome-LLM-Inference

这里不打算重复粘贴了,感兴趣的欢迎来GitHub阅读。

0x04 总结

TIPS: 欢迎大家提交PR增加LLM推理最新动向~


- The End -


GiantPandaCV

长按二维码关注我们

本公众号专注:

1. 技术分享;

2. 学术交流

3. 资料共享

欢迎关注我们,一起成长!



浏览 137
2点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
2点赞
评论
收藏
分享

手机扫一扫分享

分享
举报