量化LLM 的高效微調QLoRA 發佈於 2023-05-26 由 adnu87QLoRA 是華盛頓大學提出的一種有效的微調方法,可以減少內存使用量,足以在單個48GB GPU 上微調65B 參數模型,同時保留完整的16 位微調任務性能。 QLoRA 通過凍結的4 位量化預訓練語言模型將梯度反向傳播到低階適配器(LoRA)。項目團隊同時還發布了一個命名為Guanaco(原駝)的大語言模型,在Vicuna 基準測試中優於所有以前公開發布的模型,達到ChatGPT 性能水平的99.3%,同時只需要在單個GPU 上進行24 小時的微調。 …#量化LLM #的高效微調QLoRARelated posts:Lightweight, asynchronous key-value storage engine KipDB 【Untranslated】10 Friendly Tips for Reviewing Code You Don’t Like Simple tokenizer Homepage, Documentation and Downloads – SQLite fts5 Plugin Supporting Chinese and Pinyin Search – Development details OpenAPI desensitization gateway APInx