阿里達摩院提出的多模態GPT的模型:mPLUG-Owl,基於mPLUG 模塊化的多模態大語言模型。它不僅能理解推理文本的內容,還可以理解視覺信息,並且具備優秀的跨模態對齊能力。論文:https://arxiv.org/abs/2304.14178 DEMO:https://huggingface.co/spaces/MAGAer13/mPLUG-Owl 示例亮點特色一種面向多模態語言模型的模塊化的訓練範式。能學習與語言空間相適應的視覺知識,並支持在多模態場景下進行多輪對話。湧現多圖關係理解,… |
#多模態大語言模型mPLUGOwl