fastllm高性能大模型推理库
fastllm 是纯 C++ 实现的全平台 llm 加速库。支持 Python 调用,chatglm-6B 级模型单卡可达 10000+token / s,支持 glm、llama、moss 基座,手机端流畅运行。
功能概述
- 纯 C++ 实现,便于跨平台移植,可以在安卓上直接编译
- ARM平台支持NEON指令集加速,X86平台支持AVX指令集加速,NVIDIA平台支持CUDA加速,各个平台速度都很快就是了
- 支持浮点模型(FP32), 半精度模型(FP16), 量化模型(INT8, INT4) 加速
- 支持Batch速度优化
- 支持流式输出,很方便实现打字机效果
- 支持并发计算时动态拼Batch
- 支持python调用
- 前后端分离设计,便于支持新的计算设备
- 目前支持ChatGLM模型,各种LLAMA模型(ALPACA, VICUNA等),BAICHUAN模型,MOSS模型
推理速度
6B级int4模型单4090延迟最低约5.5ms
6B级fp16模型单4090最大吞吐量超过10000 token / s
6B级int4模型在骁龙865上速度大约为4~5 token / s
评论