鵬程·盤古α是業界首個2000億參數以中文為核心的預訓練生成語言模型,目前開源了兩個版本:鵬程·盤古α和鵬程·盤古α增強版,並支持NPU和GPU兩個版本,支持豐富的場景應用,在知識問答、知識檢索、知識推理、閱讀理解等文本生成領域表現突出,具備較強的少樣本學習的能力。
基於盤古系列大模型提供大模型應用落地技術幫助用戶高效的落地超大預訓練模型到實際場景。整個框架特點如下:
主要有如下幾個核心模塊:
-
數據集:從開源開放數據集、common crawl數據集、電子書等收集近80TB原始語料,構建了約1.1TB的高質量中文語料數據集、53種語種高質量單、雙語數據集2TB。
-
基礎模塊:提供預訓練模型庫,支持常用的中文預訓練模型,包括鵬程·盤古α、鵬程·盤古α增強版等。
-
應用層:支持常見的NLP應用比如多語言翻譯、開放域對話等,支持預訓練模型落地工具,包括模型壓縮、框架移植、可持續學習,助力大模型快速落地。
#鵬程盤古α首頁文檔和下載 #中文預訓練語言模型 #程式开发