ExllamaLlama HF 转换器重写

联合创作 · 2023-09-25 23:39

Exllama 是对 Llama 的 HF 转换器实现进行更高效的内存重写,以用于量化权重。



  • 设计用于量化权重

  • 快速且节省内存的推理(不仅仅是注意力)

  • 跨多个设备映射

  • 内置(多)LoRA 支持

  • funky 采样函数的配套库


注意,该项目处于概念验证&预览阶段,可能发生大型变更。


硬件/软件要求


作者在 RTX 4090 和 RTX 3070-Ti 上进行开发。两种卡都支持 CUDA 内核,但可能与旧卡不兼容。


作者没有更低的显卡,所以不知道老显卡行不行。


另外,不知道这是否适用于 Windows/WSL。


依赖关系


此列表可能不完整:



  • torch使用 cu118 在 2.1.0(nightly)上进行测试,也可能适用于较旧的 CUDA 版本

  • safetensors0.3.1

  • sentencepiece

  • ninja


限制


截至目前(正在处理):



  • 不支持没有 groupsize 的 v1 模型

  • 遇到过具有非标准布局和数据类型的模型(例如 float32 嵌入表)。确保支持所有可能的排列需要一段时间。

浏览 15
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报