Exllama 是對Llama 的HF 轉換器實現進行更高效的內存重寫,以用於量化權重。
- 設計用於量化權重
- 快速且節省內存的推理(不僅僅是注意力)
- 跨多個設備映射
- 內置(多)LoRA 支持
- funky 採樣函數的配套庫
注意,該項目處於概念驗證&預覽階段,可能發生大型變更。
硬体/軟件要求
作者在RTX 4090 和RTX 3070-Ti 上進行開發。兩種卡都支持CUDA 內核,但可能與舊卡不兼容。
作者沒有更低的顯卡,所以不知道老顯卡行不行。
另外,不知道這是否適用於Windows/WSL。
依賴關係
此列表可能不完整:
torch
使用cu118 在2.1.0(nightly)上進行測試,也可能適用於較舊的CUDA 版本safetensors
0.3.1sentencepiece
ninja
限制
截至目前(正在處理):
- 不支持沒有groupsize 的v1 模型
- 遇到過具有非標準佈局和數據類型的模型(例如float32 嵌入表)。確保支持所有可能的排列需要一段時間。
#Exllama首頁文檔和下載 #Llama #轉換器重寫 #程式开发