ExllamaLlama HF 转换器重写

联合创作 · 2023-09-25 23:39

Exllama 是对 Llama 的 HF 转换器实现进行更高效的内存重写，以用于量化权重。

设计用于量化权重
快速且节省内存的推理（不仅仅是注意力）
跨多个设备映射
内置（多）LoRA 支持
funky 采样函数的配套库

注意，该项目处于概念验证&预览阶段，可能发生大型变更。

硬件/软件要求

作者在 RTX 4090 和 RTX 3070-Ti 上进行开发。两种卡都支持 CUDA 内核，但可能与旧卡不兼容。

作者没有更低的显卡，所以不知道老显卡行不行。

另外，不知道这是否适用于 Windows/WSL。

依赖关系

此列表可能不完整：

torch使用 cu118 在 2.1.0（nightly）上进行测试，也可能适用于较旧的 CUDA 版本
safetensors0.3.1
sentencepiece
ninja

限制

截至目前（正在处理）：

不支持没有 groupsize 的 v1 模型
遇到过具有非标准布局和数据类型的模型（例如 float32 嵌入表）。确保支持所有可能的排列需要一段时间。

浏览 15

点赞

收藏

分享

举报

评论

图片

表情

svg2pngSVG-to-PNG 转换器

svg2png 是一个使用 PhantomJS 将 SVG 转换为 PNG 的工具。const fs

svg2pngSVG-to-PNG 转换器

svg2png是一个使用PhantomJS将SVG转换为PNG的工具。constfs=require("pn/fs");//https://www.npmjs.com/package/pnconsts

通信转换器

一款通过将LoRaWAN通信信号与RS485/MBUS信号进行转换，实现对表计设备的数据透传通信。

Regenerator转换器

Regenerator是用来转换ECMAScript6的yield语法到现今的浏览器的一个转换器最简单使用：regeneratores6.js>es5.js#Justthetransform.r

程序说明：1. 依赖：Windows操作系统，.Net FrameWork 3.5， Office

Regenerator转换器

Regenerator 是用来转换 ECMAScript 6 的 yield 语法到现今的浏览器的一

程序说明：1.依赖：Windows操作系统，.NetFrameWork3.5，OfficeWord2.Word另存为HTML有几种格式可以选：单个网页mht，网页htm以及筛选过的网页htm。我选择的

mmlsharpMathML转换器

mmlsharp(MathMLtoC#)是一个用来将MathML数学公式标识语言转换成C#计算代码的工具。界面如下图所示：例如下面公式将转成C#代码：p=rho*R*T+(B_0*R*T-A_0-((

TranspecRSpec 语法转换器

Transpec 是一种可通过静态和动态代码分析将你的规范转换为最新的 RSpec 语法的工具。使用

JODConverterOpenDocument文档转换器

JODConverter一個Java的OpenDocument 文件轉換器，可以進行許多文件格式的轉

点赞

收藏

分享

举报