CoDi-Any2Any的生成模型

前言#

本文簡單記錄介紹一下 CoDi。

CoDi 可以從任何輸入模態生成任何組合的輸出模態，例如語言、圖像、視頻或音頻。

CoDi 可以從任何輸入模態，比如語言、圖像、視頻或音頻的任何組合中產生任何語言、圖像、視頻或音頻輸出模態的組合。它在輸入和輸出空間中對齊模態，通過在擴散過程中橋接對齊來構建共享的多模態空間，使其能夠對任何輸入組合進行條件生成，並生成任何一組模態。

CoDi 與現有的生成 AI 系統不同，CoDi 可以並行生成多個模態，並且其輸入不限於文本或圖像等子集模態。此外，CoDi 的輸入和輸出空間中的模態對齊，使其能夠自由地對任何輸入組合進行條件生成，並生成任何組合的模態，即使這些模態在訓練數據中不存在。

13-CoDi_architecture

CoDi 採用了一種新穎的可組合生成策略，通過在擴散過程中建立共享的多模態空間，實現了交織模態的同步生成，例如時間對齊的視頻和音頻。高度可定制和靈活的 CoDi 實現了強大的聯合模態生成質量，並且在單模態合成的狀態下表現優異或與最先進的單模態合成技術相當。

官方demo，模型結構和參數。

多模態模型最近出現了很多，研究者需要保持學習，一般使用的人沒必要看了，費腦細胞。

參考文章：

本文僅作為個人學習記錄。

本文與hblog保持同步。