本項目向社區提供中文對話模型Linly-ChatFlow 、中文基礎模型Linly-Chinese-LLaMA 及其訓練數據。模型基於 TencentPretrain 預訓練框架實現,在32 * A100 GPU 上全參數訓練(Full-tuning), 將陸續開放7B、13B、33B、65B 規模的中文模型權重。中文基礎模型以LLaMA 為底座,利用中文和中英平行增量預訓練,將它在英文上強大語言能力遷移到中文上。進一步,項目匯總了目前公開的多語言指令數據,對中文模型進行了大規模指令跟隨訓練,實現了Linly-ChatFlow 對話模型。
此外,本項目還將公開從頭訓練的 Linly-Chinese-OpenLLaMA 模型,在1TB 中英文語料預訓練,針對中文優化使用字詞結合tokenizer,模型將以Apache 2.0 協議公開。
項目特點
- 通過Full-tuning (全參數訓練)獲得中文LLaMA模型,提供TencentPretrain 與HuggingFace 版本
- 匯總中文開源社區指令數據,提供目前最大的中文LLaMA 模型
- 模型細節公開可複現,提供數據準備、模型訓練和模型評估完整流程代碼
- 多種量化方案,支持CUDA 和邊緣設備部署推理
- 基於公開數據從頭訓練Chinese-OpenLLaMA ,針對中文優化字詞結合tokenizer(進行中)
中文預訓練語料 | 中文指令精調數據集 | 模型量化部署 | 領域微調示例
模型下載
使用須知
模型權重基於 GNU General Public License v3.0 協議,僅供研究使用,不能用於商業目的。請確認在已獲得許可的前提下使用本倉庫中的模型。
7B:基礎模型Linly-Chinese-LLaMA-7B| 對話模型Linly-ChatFlow-7B| int4量化版本Linly-ChatFlow
13B:基礎模型Linly-Chinese-LLaMA-13B| 對話模型Linly-ChatFlow-13B
33B:33B 基礎模型
65B:訓練中
HuggingFace模型
7B 基礎模型 | 13B 基礎模型 | 33B 基礎模型
7B 對話模型 | 13B 對話模型
訓練情況
模型仍在迭代中,本項目定期更新模型權重。
局限性
Linly-ChatFlow 完全基於社區開放語料訓練,內容未經人工修正。受限於模型和訓練數據規模,Linly-ChatFlow 目前的語言能力較弱,仍在不斷提升中。開發團隊表示已經觀察到Linly-ChatFlow 在多輪對話、邏輯推理、知識問答等場景具有明顯缺陷,也可能產生帶有偏見或有害內容。
此外,由於增量訓練和指令精調階段使用了相同的預訓練目標(causal LM),發現在一些情況下模型會續寫指令(例如,語義理解-Q4-13B),計劃將在下個版本解決這一問題。
#Linly首頁文檔和下載 #大規模中文語言模型 #程式开发