fastllm高性能大模型推理库

联合创作 · 2023-09-25 23:52

fastllm 是纯 C++ 实现的全平台 llm 加速库。支持 Python 调用,chatglm-6B 级模型单卡可达 10000+token / s,支持 glm、llama、moss 基座,手机端流畅运行。

功能概述

  • 纯 C++ 实现,便于跨平台移植,可以在安卓上直接编译
  • ARM平台支持NEON指令集加速,X86平台支持AVX指令集加速,NVIDIA平台支持CUDA加速,各个平台速度都很快就是了
  • 支持浮点模型(FP32), 半精度模型(FP16), 量化模型(INT8, INT4) 加速
  • 支持Batch速度优化
  • 支持流式输出,很方便实现打字机效果
  • 支持并发计算时动态拼Batch
  • 支持python调用
  • 前后端分离设计,便于支持新的计算设备
  • 目前支持ChatGLM模型,各种LLAMA模型(ALPACA, VICUNA等),BAICHUAN模型,MOSS模型

推理速度

6B级int4模型单4090延迟最低约5.5ms

6B级fp16模型单4090最大吞吐量超过10000 token / s

6B级int4模型在骁龙865上速度大约为4~5 token / s

详细测试数据点这里

浏览 9
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报