前言#
本文簡單記錄介紹一下 DragGAN。
LangGPT 是一種讓能交互式選擇圖像的任何點精確移動的生成對抗網絡模型,白話就是秒殺 PS的方法。
正文#
一、什麼是 DragGAN#
DragGAN 可以通過用戶交互的方式「拖動」圖像的任何點以精確到達目標點,從而對圖像進行變形,操縱動物、汽車、人類、風景等不同類別的姿勢、形狀、表情和佈局。
DragGAN 為直觀的基於點的圖像編輯提供一種交互式方法。該方法允許用戶通過點擊圖像上的幾個處理點和目標點來輕鬆「拖動」任何 GAN 生成的圖像的內容。然後,該方法將移動處理點,以精確到達相應的目標點,從而輕鬆進行圖像操作。
這項技術如果應用到 PS 和美圖秀秀裡,那可真是「太酷啦」!
二、DragGAN 結構#
DragGAN 的基礎架構基於StyleGAN。
根據論文描述,模型由兩個主要組件組成,包括:
1)生成器:基於特徵的運動監督,將交互點驅動到目標位置。這是通過優化潛在代碼的移位特徵塊損失實現的,每個優化步驟都會導致交互點向目標靠近。
2)判別器:一種新的利用辨識式生成器特徵來不斷定位交互點位置的點跟踪方法,然後通過特徵空間中的最近鄰搜索執行點跟踪。
三、DragGAN 官方效果展示#
效果圖來自官方項目主頁。
四、總結#
目前 DragGAN 還未放出源碼,官方預計六月。
首先基於 GAN 的方式一般都比擴散模型的小很多,意味著普通設備都可以運行,其次開源後可以接入各種圖像處理軟件中,以後處理圖像簡直不要太舒服。
之前在擴散模型淺析裡有提到過,雖然擴散模型效果很好,但是不代表其他生成模型就沒有用處了,這不,DragGAN 來了,說明 GAN 真的還是有很多可挖掘的地方,工程研究上更是比擴散模型有性價比。
最後#
參考文章:
声明#
本文僅作為個人學習記錄。
本文與hblog保持同步。