SuperCLUE首頁、文檔和下載- 中文通用大模型測評基準- 程式开发

SuperCLUE 是針對中文可用的通用大模型的一個測評基準。

它主要回答的問題是:在當前通用大模型大力發展的情況下,中文大模型的效果情況。包括但不限於:

  • 這些模型不同任務的效果情況
  • 相較於國際上的代表性模型做到了什麼程度
  • 這些模型與人類的效果對比如何?

它嘗試在一系列國內外代表性的模型上使用多個維度能力進行測試。 SuperCLUE是中文語言理解測評基準(CLUE)在通用人工智能時代的進一步發展。

SuperCLUE 的構成與特點

著眼於綜合評價大模型的能力,使其能全面地測試大模型的效果,又能考察模型在中文上特有任務的理解和積累。 SuperCLUE從三個不同的維度評價模型的能力:基礎能力、專業能力和中文特性能力

包括了常見的有代表性的模型能力,如語義理解、對話、邏輯推理、角色模擬、程式碼、生成與創作等10項能力。

包括了中學、大學與專業考試,涵蓋了從數學、物理、地理到社會科學等50多項能力。

針對有中文特點的任務,包括了中文成語、詩歌、文學、字形等10項多種能力。

SuperCLUE 特點

  • 多個維度能力考察(3大類70+子能力)

從三個不同角度對中文大模型進行測試,以考察模型的綜合能力;並且每一個子能力又含有十項或以上不同的細分能力。

  • 自動化測評(一鍵測評)

通過自動化測評方式以相對客觀形式測試不同模型的效果,可以一鍵對大模型進行測評。

  • 廣泛的代表性模型(9個模型)

選取了多個國內外有代表性的可用的模型進行測評,以反映國內大模型的發展現狀並了解與國際領先模型的差距或相對優劣勢。

在通用人工智能發展的情況下,也提供了模型相對於人類效果的指標對比。

#SuperCLUE首頁文檔和下載 #中文通用大模型測評基準 #程式开发

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *