書生·浦語首頁、文檔和下載- 多語言大型語言模型- 程式开发

書生·浦語(InternLM)是由上海人工智能實驗室和SenseTime(貢獻相等)與香港中文大學、復旦大學和上海交通大學合作開發的多語言大型語言模型。

InternLM 是一種具有104B 參數的多語言基礎語言模型。 InternLM 在具有1.6T 令牌的大型語料庫上經過多階段漸進過程進行預訓練,然後進行微調以符合人類偏好。還開發了一個名為Uniscale-LLM 的訓練系統,用於高效的大型語言模型訓練。

對多項基準的評估表明,InternLM 在知識理解、閱讀理解、數學和編碼等多個方面都達到了最先進的性能。憑藉如此全面的能力,InternLM 在不借助外部工具的情況下,在包括MMLU、AGIEval、C-Eval 和GAOKAO-Bench 在內的綜合考試中取得了出色的成績。

在這些基準測試中,InternLM 不僅明顯優於開源模型,但與ChatGPT 相比也獲得了更優越的性能。此外,InternLM 展示了對中文語言和中國文化的出色理解能力,這使其成為支持面向中文的語言應用程序的合適基礎模型。

主要結果

隨著最新的大型語言模型開始展現出人類水平的智能,中國的高考、美國的SAT、GRE等為人類設計的考試被認為是評估語言模型的重要手段。在其關於GPT-4 的技術報告中,OpenAI 通過跨多個領域的考試對GPT-4 進行了測試,並將考試成績作為關鍵結果。

項目團隊在四個綜合考試基准上測試了InternLM 與其他人的比較,如下所示:

  • MMLU : 基於美國各種考試構建的多任務基準,涵蓋初等數學、物理、化學、計算機科學、美國歷史、法律、經濟、外交等。

  • AGIEval : 微軟研究院開發的一種通過人性化考試來評估語言模型能力的基準測試,包含19個來自中國和美國各種考試的任務集,例如中國的高考和律師資格考試,以及美國的SAT、LSAT、GRE 和GMAT。在這19 個任務集中,有9 個是基於中國高考(高考)的,將其挑出來作為一個重要的集合,命名為AGIEval(GK)

  • C-Eval : 為評估中文語言模型而設計的綜合基準,包含52個學科近14,000題,涵蓋數學,物理,化學,生物,歷史,政治,計算機等學科,以及公務員專業考試,註冊會計師、律師和醫生。

  • GAOKAO-Bench : 基於中國高考的綜合基準,包括高考所有科目。它提供了不同類型的問題,包括選擇題、填空題和問答題。為簡潔起見,將此基準簡稱為高考

MMLU 的結果

AGIEval 的結果

C-Eval 的結果

C-Eval 有一個實時排行榜。下面是顯示所有結果的屏幕截圖(截至2023 年6 月1 日)。

GAOKAO-Benchmark 結果

更多詳細結果可參考技術報告。

#書生浦語首頁文檔和下載 #多語言大型語言模型 #程式开发

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *