banner
hughie

hughie

热爱技术的小菜鸟, 记录一下所学所感

I-JEPA-擁有初步世界模型的圖像AI

前言#

本文簡單記錄介紹一下 I-JEPA。

I-JEPA 是一種基於圖像聯合嵌入預測架構的自監督學習方法。

18-I-JEPA-arch


正文#

一、什麼是 I-JEPA#

是一種自我監督學習的方法,是基於圖像的聯合嵌入預測架構,可以從同一圖像的其他部分的表示中預測圖像的一部分的表示。

二、I-JEPA 功能#

18-I-JEPA-example

對於每張圖像,藍色框外的部分被編碼並作為上下文提供給預測器。預測器輸出它期望在藍色框內的區域中的表示。預測器識別應該填充哪些部分的語義,從而學習對世界的語義進行建模。

需要明確的是,這個模型是預測圖像中 mask 區域的高級信息,而不是像素級細節。

三、總結#

I-JEPA 是根據圖像已知區域信息對不可知區域的語義級預測,項目中給的例子其實是另外訓練了一個草圖生成器,將 I-JEPA 預測到的高級語義信息進行解碼,得到不可知區域的可視化預測,I-JEPA 相當於一個特徵提取器。這個工作與data2vec的工作感覺很類似👀,但 data2vec 引入了一個通用框架來訓練不同類型的數據輸入。

之所以說是初步具有世界模型的 AI,是官方提到這是一個world model(餵的數據足夠表示大部分圖像語義)。
可能後續會有相應的其他模型發布,這只是其中一個模塊。


最後#

參考文章:

官方項目

data2vec


聲明#

本文僅作為個人學習記錄。

本文與HBlog保持同步。

載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。