前言#
本文簡單記錄介紹一下 I-JEPA。
I-JEPA 是一種基於圖像聯合嵌入預測架構的自監督學習方法。
正文#
一、什麼是 I-JEPA#
是一種自我監督學習的方法,是基於圖像的聯合嵌入預測架構,可以從同一圖像的其他部分的表示中預測圖像的一部分的表示。
二、I-JEPA 功能#
對於每張圖像,藍色框外的部分被編碼並作為上下文提供給預測器。預測器輸出它期望在藍色框內的區域中的表示。預測器識別應該填充哪些部分的語義,從而學習對世界的語義進行建模。
需要明確的是,這個模型是預測圖像中 mask 區域的高級信息,而不是像素級細節。
三、總結#
I-JEPA 是根據圖像已知區域信息對不可知區域的語義級預測,項目中給的例子其實是另外訓練了一個草圖生成器,將 I-JEPA 預測到的高級語義信息進行解碼,得到不可知區域的可視化預測,I-JEPA 相當於一個特徵提取器。這個工作與data2vec的工作感覺很類似👀,但 data2vec 引入了一個通用框架來訓練不同類型的數據輸入。
之所以說是初步具有世界模型的 AI,是官方提到這是一個world model
(餵的數據足夠表示大部分圖像語義)。
可能後續會有相應的其他模型發布,這只是其中一個模塊。
最後#
參考文章:
聲明#
本文僅作為個人學習記錄。
本文與HBlog保持同步。