Pre-Training with Whole Word Masking for Chinese BERT(中文BERT-wwm 系列模型)
在自然語言處理領域中,預訓練語言模型(Pre-trained Language Models)已成為非常重要的基礎技術。為了進一步促進中文信息處理的研究發展,哈工大訊飛聯合實驗室(HFL)發布了基於全詞遮罩(Whole Word Masking)技術的中文預訓練模型BERT-wwm,以及與此技術密切相關的模型:BERT-wwm-ext、RoBERTa-wwm-ext、RoBERTa-wwm-ext-large、RBT3、RBTL3。
Whole Word Masking (wwm),暫翻譯為全词Mask
或整词Mask
,是谷歌在2019年5月31日發布的一項BERT的升級版本,主要更改了原預訓練階段的訓練樣本生成策略。簡單來說,原有基於WordPiece的分詞方式會把一個完整的詞切分成若干個子詞,在生成訓練樣本時,這些被分開的子詞會隨機被mask。在全词Mask
中,如果一個完整的詞的部分WordPiece子詞被mask,則同屬該詞的其他部分也會被mask,即全词Mask
。
需要注意的是,這裡的mask 指的是廣義的mask(替換成[MASK];保持原詞彙;隨機替換成另外一個詞),並非只局限於單詞替換成[MASK]
標籤的情況。更詳細的說明及樣例請參考:#4
同理,由於谷歌官方發布的BERT-base, Chinese
中,中文是以字為粒度進行切分,沒有考慮到傳統NLP中的中文分詞(CWS)。HFL 將全詞Mask的方法應用在了中文中,使用了中文維基百科(包括簡體和繁體)進行訓練,並且使用了哈工大LTP作為分詞工具,即對組成同一個詞的漢字全部進行Mask。
下述文本展示了全词Mask
的生成樣例。 注意:為了方便理解,下述例子中只考慮替換成[MASK]標籤的情況。
說明 | 樣例 |
---|---|
原始文本 | 使用語言模型來預測下一個詞的probability。 |
分詞文本 | 使用語言模型來預測下一個詞的probability 。 |
原始Mask輸入 | 使用語言 [MASK] 型來 [MASK] 測下一個詞的pro [MASK] ##lity 。 |
全詞Mask輸入 | 使用語言 [MASK] [MASK] 來 [MASK] [MASK] 下一個詞的 [MASK] [MASK] [MASK] 。 |
中文模型下載
本目錄中主要包含base模型,故HFL 不在模型簡稱中標註base
字樣。對於其他大小的模型會標註對應的標記(例如large)。
BERT-large模型
:24-layer, 1024-hidden, 16-heads, 330M parametersBERT-base模型
:12-layer, 768-hidden, 12-heads, 110M parameters
模型簡稱 | 語料 | Google下載 | 訊飛雲下載 |
---|---|---|---|
RBT6, Chinese | EXT數據[1] | – | TensorFlow(密碼XNMA) |
RBT4, Chinese | EXT數據[1] | – | TensorFlow(密碼e8dN) |
RBTL3, Chinese | EXT數據[1] | TensorFlow PyTorch | TensorFlow(密碼vySW) |
RBT3, Chinese | EXT數據[1] | TensorFlow PyTorch | TensorFlow(密碼b9nx) |
RoBERTa-wwm-ext-large, Chinese | EXT數據[1] | TensorFlow PyTorch | TensorFlow(密碼u6gC) |
RoBERTa-wwm-ext, Chinese | EXT數據[1] | TensorFlow PyTorch | TensorFlow(密碼Xe1p) |
BERT-wwm-ext, Chinese | EXT數據[1] | TensorFlow PyTorch | TensorFlow(密碼4cMG) |
BERT-wwm, Chinese | 中文維基 | TensorFlow PyTorch | TensorFlow(密碼07Xj) |
BERT-base, Chinese 谷歌 | 中文維基 | 谷歌 Cloud | – |
BERT-base, Multilingual Cased 谷歌 | 多語種維基 | 谷歌 Cloud | – |
BERT-base, Multilingual Uncased 谷歌 | 多語種維基 | 谷歌 Cloud | – |
[1] EXT數據包括:中文維基百科,其他百科、新聞、問答等數據,總詞數達5.4B。
#ChineseBERTwwm首頁文檔和下載 #中文BERTwwm #系列模型 #程式开发