多模態對話語言模型VisualGLM-6B

VisualGLM-6B 是一個開源的,支持圖像、中文和英文的多模態對話語言模型,語言模型基於ChatGLM-6B,具有62 億參數;圖像部分通過訓練BLIP2-Qformer 構建起視覺模型與語言模型的橋樑,整體模型共78 億參數。 VisualGLM-6B 依靠來自於CogView 數據集的30M 高質量中文圖文對,與300M 經過篩選的英文圖文對進行預訓練,中英文權重相同。該訓練方式較好地將視覺信息對齊到ChatGLM 的語義空間;之後的微調階段,模型在長視覺問…

#多模態對話語言模型VisualGLM6B

Leave a Reply

Your email address will not be published. Required fields are marked *