前言#
本文简单记录介绍一下 DragGAN。
LangGPT 是一种让能交互式选择图像的任何点精确移动的生成对抗网络模型,白话就是秒杀 PS的方法。
正文#
一、什么是 DragGAN#
DragGAN 可以通过用户交互的方式 “拖动” 图像的任何点以精确到达目标点,从而对图像进行变形,操纵动物、汽车、人类、风景等不同类别的姿势、形状、表情和布局。
DragGAN 为直观的基于点的图像编辑提供一种交互式方法。该方法允许用户通过单击图像上的几个处理点和目标点来轻松 “拖动” 任何 GAN 生成的图像的内容。然后,该方法将移动处理点,以精确到达相应的目标点,从而轻松进行图像操作。
这项技术如果应用到 PS 和美图秀秀里,那可真是 “太酷啦”!
二、DragGAN 结构#
DragGAN 的基础架构基于StyleGAN。
根据论文描述,模型由两个主要组件组成,包括:
1)生成器:基于特征的运动监督,将交互点驱动到目标位置。这是通过优化潜在代码的移位特征块损失实现的,每个优化步骤都会导致交互点向目标靠近。
2)判别器:一种新的利用辨别式生成器特征来不断定位交互点位置的点跟踪方法,然后通过特征空间中的最近邻搜索执行点跟踪。
三、DragGAN 官方效果展示#
效果图来自官方项目主页。
四、总结#
目前 DragGAN 还未放出源码,官方预计六月。
首先基于 GAN 的方式一般都比扩散模型的小很多,意味着普通设备都可以运行,其次开源后可以接入各种图像处理软件中,以后处理图像简直不要太舒服。
之前在扩散模型浅析里有提到过,虽然扩散模型效果很好,但是不代表其他生成模型就没有用处了,这不,DragGAN 来了,说明 GAN 真的还是有很多可挖掘的地方,工程研究上更是比扩散模型有性价比。
最后#
参考文章:
声明#
本文仅作为个人学习记录。
本文与hblog保持同步。