Linly首頁、文檔和下載- 大規模中文語言模型- 程式开发

本項目向社區提供中文對話模型Linly-ChatFlow 、中文基礎模型Linly-Chinese-LLaMA 及其訓練數據。模型基於 TencentPretrain 預訓練框架實現,在32 * A100 GPU 上全參數訓練(Full-tuning), 將陸續開放7B、13B、33B、65B 規模的中文模型權重。中文基礎模型以LLaMA 為底座,利用中文和中英平行增量預訓練,將它在英文上強大語言能力遷移到中文上。進一步,項目匯總了目前公開的多語言指令數據,對中文模型進行了大規模指令跟隨訓練,實現了Linly-ChatFlow 對話模型。

此外,本項目還將公開從頭訓練的 Linly-Chinese-OpenLLaMA 模型,在1TB 中英文語料預訓練,針對中文優化使用字詞結合tokenizer,模型將以Apache 2.0 協議公開。

項目特點

  • 通過Full-tuning (全參數訓練)獲得中文LLaMA模型,提供TencentPretrain 與HuggingFace 版本
  • 匯總中文開源社區指令數據,提供目前最大的中文LLaMA 模型
  • 模型細節公開可複現,提供數據準備、模型訓練和模型評估完整流程代碼
  • 多種量化方案,支持CUDA 和邊緣設備部署推理
  • 基於公開數據從頭訓練Chinese-OpenLLaMA ,針對中文優化字詞結合tokenizer(進行中)

中文預訓練語料 | 中文指令精調數據集 | 模型量化部署 | 領域微調示例

模型下載

使用須知

模型權重基於 GNU General Public License v3.0 協議,僅供研究使用,不能用於商業目的。請確認在已獲得許可的前提下使用本倉庫中的模型。

7B基礎模型Linly-Chinese-LLaMA-7B 對話模型Linly-ChatFlow-7B int4量化版本Linly-ChatFlow

13B基礎模型Linly-Chinese-LLaMA-13B 對話模型Linly-ChatFlow-13B

33B33B 基礎模型

65B:訓練中

HuggingFace模型

7B 基礎模型 | 13B 基礎模型 33B 基礎模型

7B 對話模型 | 13B 對話模型

訓練情況

模型仍在迭代中,本項目定期更新模型權重。

局限性

Linly-ChatFlow 完全基於社區開放語料訓練,內容未經人工修正。受限於模型和訓練數據規模,Linly-ChatFlow 目前的語言能力較弱,仍在不斷提升中。開發團隊表示已經觀察到Linly-ChatFlow 在多輪對話、邏輯推理、知識問答等場景具有明顯缺陷,也可能產生帶有偏見或有害內容。

此外,由於增量訓練和指令精調階段使用了相同的預訓練目標(causal LM),發現在一些情況下模型會續寫指令(例如,語義理解-Q4-13B),計劃將在下個版本解決這一問題。

#Linly首頁文檔和下載 #大規模中文語言模型 #程式开发

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *