InternGPT首頁、文檔和下載- 視覺交互系統- 程式开发

InternGPT(簡稱 iGPT) / InternChat(簡稱 iChat) 是一種基於指向語言驅動的視覺交互系統,允許你使用指向設備通過點擊、拖動和繪製與ChatGPT 進行互動。

InternGPT 的名稱代表了 interaction(交互)、nonverbal(非語言)和ChatGPT。與依賴純語言的現有交互系統不同,通過整合指向指令,iGPT 顯著提高了用戶與聊天機器人之間的溝通效率,以及聊天機器人在視覺為中心任務中的準確性,特別是在復雜的視覺場景中。

此外,在iGPT 中,採用輔助控制機制來提高LLM 的控制能力,並對一個大型視覺-語言模型 Husky 進行微調,以實現高質量的多模態對話(在ChatGPT-3.5-turbo評測中達到 93.89% GPT-4 質量)。

[论文][试玩]

主要功能使用:

在圖片上傳成功後,你可以發送如下消息與iGPT進行多模態相關的對話:"what is it in the image?" or "what is the background color of image?".

你同樣也可以交互式地操作、編輯或者生成圖片,具體如下:

  • 點擊圖片上的任意位置,然後按下 Pick 按鈕,預覽分割區域。你也可以按下 OCR 按鈕,識別具體位置處存在的所有單詞;
  • 要在圖像中 刪除掩碼區域,你可以發送如下消息:“remove the masked region”
  • 要在圖像中 替換掩碼區域的物體為其他物體,你可以發送如下消息:“replace the masked region with {your prompt}”
  • 生成新圖像,你可以發送如下消息:“generate a new image based on its segmentation describing {your prompt}”
  • 想通過 塗鴉創建新圖像,你應該按下 Whiteboard 按鈕並在白板上繪製。繪製完成後,你需要按下 保存 按鈕並發送如下消息:“generate a new image based on this scribble describing {your prompt}”

系統概覽:

主要功能

A) 移除遮蓋的對象

B) 交互式圖像編輯

C) 圖像生成

D) 交互式視覺問答

E) 交互式圖像生成

F) 視頻高光解說

安裝

基本要求

  • Linux
  • Python 3.8+
  • PyTorch 1.12+
  • CUDA 11.6+
  • GCC & G++ 5.4+
  • GPU Memory > 17G 用於加載基本工具(HuskyVQA, SegmentAnything, ImageOCRRecognition)

安裝Python 的依賴項


pip install -r requirements.txt

#InternGPT首頁文檔和下載 #視覺交互系統 #程式开发

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *