ExllamaLlama HF 转换器重写

0获赞0粉丝0关注
Exllama 是对 Llama 的 HF 转换器实现进行更高效的内存重写,以用于量化权重。设计用于量化权重快速且节省内存的推理(不仅仅是注意力)跨多
加载更多