현재 대표적인 3개의 큰 Base 모델이 존재, 각각의 장단점이 존재함
Auto Encoder
- Encoder : 데이터(이미지)를 잠재 공간(latent space)으로 인코딩
- Decoder : 잠재 벡터를 데이터(이미지)로 디코딩
x와 x' 간 픽셀 차이를 최소화 하는 방향으로 학습
VAE (Variational Auto Encoder)
기본 신경망 구성은 오토 인코더와 동일 (Encoder-Decoder)
• AE : 입력데이터를 단일 잠재 벡터로 인코딩하여 학습하기 때문에 비어 있는 잠재 공간에 대한 생성 결과가 불확실
• VAE : 입력 데이터를 확률 분포 형태로 인코딩하여 학습하기 때문에 잠재 공간의 연속성이 생성 과정에 반영됨
오토 인코더는 단일벡터로 인코딩 됨
VAE는 분포 형태로 인코딩 되기 때문에, 주변의 어느 점을 선택해도 균일한 이미지가 생성됨
학습 과정에서 데이터를 평균 𝝁𝐳 과 분산 𝝈𝐳으로 인코딩하여 표준 정규분포 𝓝 (𝟎, 𝟏) 를 통해 확률 분포화함
재매개변수화(reparameterization) 트릭 : 분포를 그대로 사용하면 랜덤성으로 인해 gradient 계산 힘드므로, 샘플링하여 사용. 이를 통해 매 output이 달라지며, 생성형 모델이라는 정의에 가까워짐
𝐳 = 𝒩(0,1) ∙ 𝜎𝐳 + 𝜇𝐳
결과
GAN (Generative Adversarial Networks)
두 신경망의 경쟁 구도를 통해 학습되는 메커니즘 : Generator(생성자) vs Discriminator(판별자)
Generator는 Discriminator를 속이려 하고, Discriminator는 Generator가 생성한 이미지를 잘 구분할 수 있도록 경쟁학습
후속 연구에서는 task에 따라 다양한 시도 (추가 네트워크 적용, 손실 함수 제안, 입출력 확장 등)가 이루어짐
- 생성 이미지 제어 (conditional GAN, cGAN), 랜덤 노이즈에 원핫벡터를 부여하여 생성 결과를 제어
- 네트워크 확장 (Deep Convolutional GAN, DCGAN)
고해상도 이미지를 제작하기 위해 연속적인 망 구축, 현재 대부분의 모델에서 사용됨
적용분야 및 생성결과
- Image-to-image translation (StarGAN-v2)
- Style transfer (DualStyleGAN)
- Super-resolution (SRGAN)
- De-blurring (DeblurGAN)
i2i에서는 input이 z가 되고, 학습할 때 Discriminator에게 타겟을 주어 고해상도, 특정 물체 제거 등 가능
Diffusion Model
현존 최고의 이미지 생성 모델
열역학의 확산에서 영감을 받아 영상을 생성하는 메커니즘을 구성함
• 여러 단계에 걸쳐 영상에 노이즈를 일정 비율로 섞어 노이즈 공간으로 확산시킴
• 신경망 기반의 노이즈 제거 과정을 거쳐 영상을 생성함
재매개변수화(reparameterization) 트릭
• 확산 과정을 𝛽기반으로 표현하면 모든 수식 단계를 거쳐야 해서 메모리와 계산량 필요량이 많아짐
• 따라서 한번에 확산 과정을 처리하기 위해 𝛼𝑡 = 1 − 𝛽𝑡로 나타냄
Diffusion된 노이즈를 복구하는 방법으로 학습, 이미지에 변형을 가하고 싶으면 Positional Embedding 으로 생성 과정에 개입하여 원하는 이미지를 생성할 수 있음 (로켓타고 날아가는 라쿤 자연어를 input 받는것처럼)
그래서 완전한 랜덤Noise에 단어를 준다면, 텍스트만으로 이미지를 생성할 수 있을 것
Summary
VAE (Variational Auto Encoder) - 낮은 품질
이미지를 평균과 분산으로 인코딩하고,
해당 평균과 분산으로 만든 표준 분포 내에서 샘플링한 벡터로 생성하는 메커니즘
GAN (Generative Adversarial Networks) - 낮은 다양성
Generator와 Discriminator의 경쟁 구도를 통해 ‘진짜같은’ 이미지를 생성하는 방향으로 학습되는 생성 모델
DM (Diffusion Model) - 느린 속도
이미지를 노이즈로 확산시킨 후, 서서히 노이즈를 제거하며 재생성하는 메커니즘.
제거 과정에서 간섭을 통해 사용자가 원하는 이미지를 만들 수 도 있음