I-JEPA 是一種自我監督學習的方法。在高層次上,I-JEPA 從同一圖像的其他部分的表徵中預測圖像的一部分的表徵。值得注意的是,這種方法學習語義圖像特徵:
- 不依賴於預先指定的不變性來進行手工製作的數據轉換,這往往會偏向於特定的下游任務,
- 並且沒有讓模型填充pixel-level 細節,這往往會導致學習較少語義意義的表徵。
與具有像素解碼器的生成方法相反,I-JEPA 具有在潛在空間中進行預測的預測器。 I-JEPA 中的預測器可以看作是一個原始的(和受限的)世界模型,它能夠從部分可觀察的上下文中模擬靜態圖像中的空間不確定性。這個世界模型是語義的,因為它預測圖像中不可見區域的高級信息,而不是 pixel-level 細節。
項目團隊訓練了一個隨機解碼器,它將I-JEPA 預測的表示映射回像素空間中作為草圖。該模型正確捕捉位置不確定性並生成具有正確姿勢的高級對象部分(例如,狗的頭、狼的前腿)。
I-JEPA 預訓練在計算上也很高效。它不涉及與應用更多計算密集型數據擴充來生成多個視圖相關的任何開銷。目標編碼器只需要處理圖像的一個視圖,上下文編碼器只需要處理上下文塊。根據經驗,I-JEPA 在不使用手工視圖增強的情況下學習強大的現成語義表示。
預訓練模型
#IJEPA首頁文檔和下載 #基於圖像的聯合嵌入預測架構 #程式开发