InternGPT(簡稱 iGPT) / InternChat(簡稱 iChat) 是一種基於指向語言驅動的視覺交互系統,允許你使用指向設備通過點擊、拖動和繪製與ChatGPT 進行互動。
InternGPT 的名稱代表了 interaction(交互)、nonverbal(非語言)和ChatGPT。與依賴純語言的現有交互系統不同,通過整合指向指令,iGPT 顯著提高了用戶與聊天機器人之間的溝通效率,以及聊天機器人在視覺為中心任務中的準確性,特別是在復雜的視覺場景中。
此外,在iGPT 中,採用輔助控制機制來提高LLM 的控制能力,並對一個大型視覺-語言模型 Husky 進行微調,以實現高質量的多模態對話(在ChatGPT-3.5-turbo評測中達到 93.89% GPT-4 質量)。
主要功能使用:
在圖片上傳成功後,你可以發送如下消息與iGPT進行多模態相關的對話:"what is it in the image?"
or "what is the background color of image?"
.
你同樣也可以交互式地操作、編輯或者生成圖片,具體如下:
- 點擊圖片上的任意位置,然後按下
Pick
按鈕,預覽分割區域。你也可以按下OCR
按鈕,識別具體位置處存在的所有單詞; - 要在圖像中 刪除掩碼區域,你可以發送如下消息:
“remove the masked region”
; - 要在圖像中 替換掩碼區域的物體為其他物體,你可以發送如下消息:
“replace the masked region with {your prompt}”
; - 想 生成新圖像,你可以發送如下消息:
“generate a new image based on its segmentation describing {your prompt}”
; - 想通過 塗鴉創建新圖像,你應該按下
Whiteboard
按鈕並在白板上繪製。繪製完成後,你需要按下保存
按鈕並發送如下消息:“generate a new image based on this scribble describing {your prompt}”
。
系統概覽:
主要功能
A) 移除遮蓋的對象
B) 交互式圖像編輯
C) 圖像生成
D) 交互式視覺問答
E) 交互式圖像生成
F) 視頻高光解說
安裝
基本要求
- Linux
- Python 3.8+
- PyTorch 1.12+
- CUDA 11.6+
- GCC & G++ 5.4+
- GPU Memory > 17G 用於加載基本工具(HuskyVQA, SegmentAnything, ImageOCRRecognition)
安裝Python 的依賴項
pip install -r requirements.txt
#InternGPT首頁文檔和下載 #視覺交互系統 #程式开发