모개숲 딥러닝 스터디 - 8. Multi-model Generative Model & Customization

META_BS 2024. 5. 2. 22:15

1. MidJourney

미국 샌프란시스코 연구소 ‘Midjourney’에서 개발한 비전 생성형 AI

특이하게 ‘디스코드(discord)’ 내에서 서비스되고 있음 - 2023년 4월부터 유료화

서비스 중심의 모델, 이론적 내용은 비공개

텍스트 프롬프트 입력 기반의 이미지 생성을 수행하는 T2I (text-to-image) 모델

텍스트 기반의 이미지 생성, 첨부 이미지에 대한 설명 생성 등 text-image 간 task 수행 가능

MS & OpenAI에서 개발한 비전 생성형 AI

무료 서비스 (횟수 제한) 이용 가능

웹 브라우저, 모바일 앱 등 다양한 플랫폼에서 이용 가능

Windows 11에 탑재된 코파일럿에 탑재

DALL-E2, DALL-E3 모델을 기반으로 함

Text-Image 간 representation similarity를 학습한 CLIP을 활용

Image-Text caption 유사성을 최대화 하는 방향으로 학습됨

Stability AI & RunwayML이 공동개발한 비전 생성형 AI

오픈소스코드 및 라이브러리 지원

Latent Diffusion Model (LDM) 기반 모델

Diffusion(정방향) -> 노이즈생성 -> Denoising(역방향) 구조로, 원본 이미지를 복구하는 방향으로 학습

Few-shot image 기반 fine-tuning 기법

사용자가 원하는 이미지를 생성할 수 있도록 모델을 학습

전체 모델을 학습해야 하기 때문에 메모리, 연산량, 시간이 많이 요구됨

적은 파라미터를 튜닝하여 전체 파라미터를 대체할 수 있음