fastllm高性能大模型推理库

联合创作 · 2023-09-25 23:52

fastllm 是纯 C++ 实现的全平台 llm 加速库。支持 Python 调用，chatglm-6B 级模型单卡可达 10000+token / s，支持 glm、llama、moss 基座，手机端流畅运行。

功能概述

纯 C++ 实现，便于跨平台移植，可以在安卓上直接编译
ARM平台支持NEON指令集加速，X86平台支持AVX指令集加速，NVIDIA平台支持CUDA加速，各个平台速度都很快就是了
支持浮点模型（FP32), 半精度模型(FP16), 量化模型(INT8, INT4) 加速
支持Batch速度优化
支持流式输出，很方便实现打字机效果
支持并发计算时动态拼Batch
支持python调用
前后端分离设计，便于支持新的计算设备
目前支持ChatGLM模型，各种LLAMA模型(ALPACA, VICUNA等)，BAICHUAN模型，MOSS模型

推理速度

6B级int4模型单4090延迟最低约5.5ms

6B级fp16模型单4090最大吞吐量超过10000 token / s

6B级int4模型在骁龙865上速度大约为4~5 token / s

详细测试数据点这里

浏览 69

点赞

收藏

分享

举报

评论

图片

表情

大模型部署框架 FastLLM 实现细节解析

大模型的模型压缩与有效推理综述

1 介绍本文对大型语言模型的压缩和效率推理进行了综述。大型语言模型基于Transformer架构，具有强大的性能，但也带来了巨大的内存和计算成本。本文从算法角度对大型语言模型的压缩和效率推理方法进行了分类，包括量化、剪枝、知识蒸馏、紧凑架构设计和动态网络。大型语言模型有两个显著特点：（1

Go 实现的 llama 模型调试与推理库

开源你我他

[LLM推理优化] 100+篇: 大模型推理各方向新发展整理

OpenPPL高性能深度学习推理平台

OpenPPL是基于自研高性能算子库的推理引擎，拥有极致调优的性能；提供云原生环境下的AI模型多后端部署能力，支持OpenMMLab等深度学习模型的高效部署。架构如下：高性能设计微架构友好的任务/数据

OpenPPL高性能深度学习推理平台

OpenPPL 是基于自研高性能算子库的推理引擎，拥有极致调优的性能；提供云原生环境下的 AI 模

大模型推理再提速！英伟达推出TensorRT-LLM，专为提升大模型推理速度优化的全新框架

go-netty高性能网络库

go-netty 是大量参考了netty的设计并融合Golang本身的协程特性而开发的一款高性能网络

nanomsg高性能通信库

nanomsg是一个实现了几种“可扩展协议”的高性能通信库；可扩展协议的任务是定义多个应用系统如何通信，从而组成一个大的分布式系统。当前版本nanomsg支持以下协议：配对模式：简单的一对一的通信；总

wast高性能 Java 库

wast是一个轻量级且高性能java语言开发框架和工具包，集成了最快的json库之一和最快的yaml解析库，代码轻量，无任何依赖。功能内置json模块在性能评测上远远超过曾经的fastjson和ja

点赞

收藏

分享

举报