DragGAN-交互式の画像任意点精確制御モデル

序文#

この記事では、DragGAN について簡単に紹介します。

LangGPT は、画像の任意の点を対話的に選択し、正確に移動させることができる生成対抗ネットワークモデルであり、つまり、PS を秒殺する方法です。

本文#

1. DragGAN とは#

DragGAN は、ユーザーの対話的な操作によって画像の任意の点を「ドラッグ」し、目標点に正確に到達させることで、動物、車、人間、風景などのさまざまなカテゴリのポーズ、形状、表情、レイアウトを操作することができます。

DragGAN は、直感的なポイントベースの画像編集を対話的に行う方法を提供します。この方法では、GAN によって生成された画像のコンテンツをいくつかの処理ポイントと目標ポイントをクリックすることで簡単に「ドラッグ」することができます。その後、この方法では処理ポイントを移動して目標ポイントに正確に到達させるため、画像の操作が容易になります。

この技術が PS や美人カメラに適用されたら、本当に「かっこいい」ですね！

2. DragGAN の構造#

DragGAN の基本的な構造はStyleGANに基づいています。

論文によれば、このモデルは 2 つの主要なコンポーネントで構成されています：

1）ジェネレーター：特徴ベースのモーションスーパーバイズドにより、ポイントを目標位置にドライブします。これは、潜在的なコードのシフト特徴ブロックの損失を最適化することによって実現され、各最適化ステップでポイントが目標に近づくようになります。

2）ディスクリミネーター：ポイントトラッキングのための新しい識別的なジェネレーター特徴を使用し、特徴空間での最近傍探索を実行することで、ポイントの位置を継続的に特定します。

3. DragGAN の公式デモ#

効果の画像は公式プロジェクトページから取得しました。

DragGAN1

4. 結論#

現時点では、DragGAN のソースコードはまだ公開されていませんが、公式では 6 月に公開予定です。

まず、GAN ベースの方法は通常、拡散モデルよりもはるかに小さいため、一般的なデバイスで実行できることを意味します。また、オープンソース化された後は、さまざまな画像処理ソフトウェアに統合することができるため、画像の処理が非常に快適になります。

以前の拡散モデルの解説で述べたように、拡散モデルが非常に優れているということは、他の生成モデルが役立たないということではありません。DragGAN の登場により、GAN にはまだ多くの探求の余地があることが示されており、エンジニアリングの研究では拡散モデルよりもコストパフォーマンスが高いです。

最後に#

参考文献：

公式プロジェクト
 公式プロジェクトページ
 論文リンク

免責事項#

この記事は個人の学習記録として作成されています。

この記事はhblogと同期しています。