Exllama首頁、文檔和下載- Llama HF 轉換器重寫- 程式开发

Exllama 是對Llama 的HF 轉換器實現進行更高效的內存重寫,以用於量化權重。

  • 設計用於量化權重
  • 快速且節省內存的推理(不僅僅是注意力)
  • 跨多個設備映射
  • 內置(多)LoRA 支持
  • funky 採樣函數的配套庫

注意,該項目處於概念驗證&預覽階段,可能發生大型變更。

硬体/軟件要求

作者在RTX 4090 和RTX 3070-Ti 上進行開發。兩種卡都支持CUDA 內核,但可能與舊卡不兼容。

作者沒有更低的顯卡,所以不知道老顯卡行不行。

另外,不知道這是否適用於Windows/WSL。

依賴關係

此列表可能不完整:

  • torch使用cu118 在2.1.0(nightly)上進行測試,也可能適用於較舊的CUDA 版本
  • safetensors0.3.1
  • sentencepiece
  • ninja

限制

截至目前(正在處理):

  • 不支持沒有groupsize 的v1 模型
  • 遇到過具有非標準佈局和數據類型的模型(例如float32 嵌入表)。確保支持所有可能的排列需要一段時間。

#Exllama首頁文檔和下載 #Llama #轉換器重寫 #程式开发

Leave a Reply

Your email address will not be published. Required fields are marked *