量化LLM 的高效微調QLoRA

QLoRA 是華盛頓大學提出的一種有效的微調方法,可以減少內存使用量,足以在單個48GB GPU 上微調65B 參數模型,同時保留完整的16 位微調任務性能。 QLoRA 通過凍結的4 位量化預訓練語言模型將梯度反向傳播到低階適配器(LoRA)。項目團隊同時還發布了一個命名為Guanaco(原駝)的大語言模型,在Vicuna 基準測試中優於所有以前公開發布的模型,達到ChatGPT 性能水平的99.3%,同時只需要在單個GPU 上進行24 小時的微調。 …

#量化LLM #的高效微調QLoRA

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *