【KDD2024】基础模型在AI加速器上的推理优化-技术圈

【KDD2024】基础模型在AI加速器上的推理优化

共 1353字，需浏览 3分钟

2024-07-23 17:00

   
    
     
      
       来源：专知
      
     
    
   
   
    
     
      
       
        本文为论文介绍，建议阅读5分钟
        我们的教程提供了关于使用AI加速器进行推理优化的全面讨论。

强大的基础模型，包括具有Transformer架构的大型语言模型（LLMs），在各个行业引领了生成式人工智能的新纪元。基础模型的出现催生了大量新应用，这些应用涵盖了问答系统、客户服务、图像和视频生成以及代码补全等多个领域。然而，当模型参数数量达到数千亿时，在现实场景中的部署会带来高昂的推理成本和高延迟。因此，业界对使用AI加速器进行成本效益高且快速推理的需求越来越高。为此，我们的教程提供了关于使用AI加速器进行推理优化的全面讨论。

首先，我们概述了基本的Transformer架构和深度学习系统框架，然后深入探讨了用于快速和内存高效的注意力计算的系统优化技术，并讨论了这些技术如何高效地在AI加速器上实现。接下来，我们描述了快速Transformer推理的关键架构元素。最后，我们在同一背景下检视了各种模型压缩和快速解码策略。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU