Exllama首頁、文檔和下載- Llama HF 轉換器重寫- 程式开发

Exllama 是對Llama 的HF 轉換器實現進行更高效的內存重寫,以用於量化權重。 設計用於量化權重 快速且節省內存的推理(不僅僅是注意力) 跨多個設備映射 內置(多)LoRA 支持 funky 採樣函數的配套庫 注意,該項目處於概念驗證&預覽階段,可能發生大型變更。 硬体/軟件要求 作者在RTX 4090 和RTX 3070-Ti 上進行開發。兩種卡都支持CUDA 內核,但可能與舊卡不兼容。 作者沒有更低的顯卡,所以不知道老顯卡行不行。 另外,不知道這是否適用於Windows/WSL。 依賴關係 此列表可能不完整: …