모개숲 딥러닝 스터디 - 8. Multi-model Generative Model & Customization
1. MidJourney
미국 샌프란시스코 연구소 ‘Midjourney’에서 개발한 비전 생성형 AI
특이하게 ‘디스코드(discord)’ 내에서 서비스되고 있음 - 2023년 4월부터 유료화
서비스 중심의 모델, 이론적 내용은 비공개
텍스트 프롬프트 입력 기반의 이미지 생성을 수행하는 T2I (text-to-image) 모델
텍스트 기반의 이미지 생성, 첨부 이미지에 대한 설명 생성 등 text-image 간 task 수행 가능
2. Bing Image Creator
MS & OpenAI에서 개발한 비전 생성형 AI
무료 서비스 (횟수 제한) 이용 가능
웹 브라우저, 모바일 앱 등 다양한 플랫폼에서 이용 가능
Windows 11에 탑재된 코파일럿에 탑재
DALL-E2, DALL-E3 모델을 기반으로 함
DALL-E2
Text-Image 간 representation similarity를 학습한 CLIP을 활용
Image-Text caption 유사성을 최대화 하는 방향으로 학습됨
3. Stable Diffusion
Stability AI & RunwayML이 공동개발한 비전 생성형 AI
오픈소스코드 및 라이브러리 지원
Latent Diffusion Model (LDM) 기반 모델
Diffusion(정방향) -> 노이즈생성 -> Denoising(역방향) 구조로, 원본 이미지를 복구하는 방향으로 학습
4. DreamBooth
Few-shot image 기반 fine-tuning 기법
사용자가 원하는 이미지를 생성할 수 있도록 모델을 학습
전체 모델을 학습해야 하기 때문에 메모리, 연산량, 시간이 많이 요구됨
5. Low-Rank Adaptation (LoRA)
적은 파라미터를 튜닝하여 전체 파라미터를 대체할 수 있음