Chinese-BERT-wwm首頁、文檔和下載- 中文BERT-wwm 系列模型- 程式开发

Pre-Training with Whole Word Masking for Chinese BERT(中文BERT-wwm 系列模型)

在自然語言處理領域中,預訓練語言模型(Pre-trained Language Models)已成為非常重要的基礎技術。為了進一步促進中文信息處理的研究發展,哈工大訊飛聯合實驗室(HFL)發布了基於全詞遮罩(Whole Word Masking)技術的中文預訓練模型BERT-wwm,以及與此技術密切相關的模型:BERT-wwm-ext、RoBERTa-wwm-ext、RoBERTa-wwm-ext-large、RBT3、RBTL3。

Whole Word Masking (wwm),暫翻譯為全词Mask整词Mask,是谷歌在2019年5月31日發布的一項BERT的升級版本,主要更改了原預訓練階段的訓練樣本生成策略。簡單來說,原有基於WordPiece的分詞方式會把一個完整的詞切分成若干個子詞,在生成訓練樣本時,這些被分開的子詞會隨機被mask。在全词Mask中,如果一個完整的詞的部分WordPiece子詞被mask,則同屬該詞的其他部分也會被mask,即全词Mask

需要注意的是,這裡的mask 指的是廣義的mask(替換成[MASK];保持原詞彙;隨機替換成另外一個詞),並非只局限於單詞替換成[MASK]標籤的情況。更詳細的說明及樣例請參考:#4

同理,由於谷歌官方發布的BERT-base, Chinese中,中文是以為粒度進行切分,沒有考慮到傳統NLP中的中文分詞(CWS)。HFL 將全詞Mask的方法應用在了中文中,使用了中文維基百科(包括簡體和繁體)進行訓練,並且使用了哈工大LTP作為分詞工具,即對組成同一個的漢字全部進行Mask。

下述文本展示了全词Mask的生成樣例。 注意:為了方便理解,下述例子中只考慮替換成[MASK]標籤的情況。








說明樣例
原始文本使用語言模型來預測下一個詞的probability。
分詞文本使用語言模型來預測下一個詞的probability 。
原始Mask輸入使用語言 [MASK] 型來 [MASK] 測下一個詞的pro [MASK] ##lity 。
全詞Mask輸入使用語言 [MASK] [MASK] 來 [MASK] [MASK] 下一個詞的 [MASK] [MASK] [MASK] 。

中文模型下載

本目錄中主要包含base模型,故HFL 不在模型簡稱中標註base字樣。對於其他大小的模型會標註對應的標記(例如large)。

  • BERT-large模型:24-layer, 1024-hidden, 16-heads, 330M parameters
  • BERT-base模型:12-layer, 768-hidden, 12-heads, 110M parameters















模型簡稱語料Google下載訊飛雲下載
RBT6, ChineseEXT數據[1]TensorFlow(密碼XNMA)
RBT4, ChineseEXT數據[1]TensorFlow(密碼e8dN)
RBTL3, ChineseEXT數據[1]TensorFlow

PyTorch
TensorFlow(密碼vySW)
RBT3, ChineseEXT數據[1]TensorFlow

PyTorch
TensorFlow(密碼b9nx)
RoBERTa-wwm-ext-large, ChineseEXT數據[1]TensorFlow

PyTorch
TensorFlow(密碼u6gC)
RoBERTa-wwm-ext, ChineseEXT數據[1]TensorFlow

PyTorch
TensorFlow(密碼Xe1p)
BERT-wwm-ext, ChineseEXT數據[1]TensorFlow

PyTorch
TensorFlow(密碼4cMG)
BERT-wwm, Chinese中文維基TensorFlow

PyTorch
TensorFlow(密碼07Xj)
BERT-base, Chinese谷歌中文維基谷歌 Cloud
BERT-base, Multilingual Cased谷歌多語種維基谷歌 Cloud
BERT-base, Multilingual Uncased谷歌多語種維基谷歌 Cloud

[1] EXT數據包括:中文維基百科,其他百科、新聞、問答等數據,總詞數達5.4B。

#ChineseBERTwwm首頁文檔和下載 #中文BERTwwm #系列模型 #程式开发

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *