생성모델의 발전 과정
- 고전 생성 모델
- 생성 모델 (Generative models)
- 데이터는 저차원의 필수적인 정보로부터 생성 가능하다는 가정하에 분포를 학습, 새로운 데이터를 생성
- 확률 분포 추정과 근사
- 가우시안 혼합 모델 (Gaussian Mixture Model, GMM, 1981) : 여러 개의 정규 분포
- 제한된 볼츠만 머신 (Restricted Boltzmann Machine, RBM, 1985) : 볼츠만 분포
- 심층 신뢰망 (Deep Belief Network, DBN, 2006) : 여러 층의 RBM
- 자기 회귀(Autoregressive Distribution Estimator, NADE, 2011) : 자기 회귀 기반의 생성 모델 - VAE의 발전
- VAE 발표 (2014)
- 변분 오토 인코더 (Variational Autoencoder, VAE)
- 분포 개선, 계층모형 (2016)
- Adversarial Autoencoder (AAE)
- Ladder VAE (LVAE)
- 학습 개선, 벡터 양자화( 2017 )
- Wasserstein Autoencoder (WAE)
- Beta-VAE
- Vector-Quantized VAE (VQ-VAE)
- Scale-up & 고성능, 고해상도 모델 제안(2019)
- VQ-VAE-2
- Deep VAE(2020)
- NVAE - GAN의 발전
- GANs, cGAN 발표 (2014)
- 적대적 생성 신경망 (Generative Adversarial Networks, GANs)
- 조건부 적대적 생성 신경망 (Conditional GAN, cGAN)
- GAN 구조 발전(2015)
- Deep Convolutional GAN (DCGAN)
- 손실 함수, 학습 방법 연구 (2016)
- Least Squares GAN (LSGAN)
- Wasserstein GAN (WGAN)
- 계층 모형 / 새로운 적용 분야 (2017)
- Progressive Growing of GANs (PGGANs)
- CycleGAN
- 높은 다양성과 높은 화질 모델(2019)
- StyleGAN
- BigGAN
- 더 높은 성능과 다양한 도메인으로의 확장(2023)
- StyleGAN-T
- GiGaGAN - 확산 모델 (Diffusion Model, DM)의 발전
- 확산 모델 (Diffusion Model, DM) 등장 (2015)
- 열확산 현상 이론 도입
- 높은 성능의 확산 확률 모델 (Diffusion Probabilistic Model, DPM) 등장 (2020)
- Denoising DPM (DDPM)
- 생성 방식 및 모델 개선 (2021)
- Guided DPM
- Denoising Diffusion Implicit Model (DDIM) (2022)
- 다양한 조건 기반 영상 생성
- Latent DPM (LDM, Stable Diffusion)
- 높은 생성물 의미론 제어 방법 다양한 조건 기반 영상 생성 및 개인화 방법 등장 (2023)
- ControlNet, DreamBooth, Face0, …
판별모델과 생성모델
- 판별 모델
- 데이터 X가 주어졌을 때, 특성 Y가 나타날 조건부 확률 p(Y|X)를 직접적으로 반환하는 모델
- 주어진 데이터를 통해 데이터 사이의 경계를 예측
- 로지스틱 회귀 분석
- 어떤 데이터를 서로 다른 클래스로 분류해주는 문제에 활용될 수 있음
- 정상 데이터에 대한 경계를 최대한 좁혀 이를 벗어나는 이상치를 감지하는 문제에도 활용 가능 - 생성 모델
- 데이터 X와 특성 Y의 결합(joint) 분포 p(X, Y) or Y가 주어질 때 X의 조건부(conditional) 분포 p(X|Y)를 추정하는 모델
- 주어진 Y가 없는 경우, 데이터의 주변(marginal) 분포 p(X)를 추정하는 모델
- 주어진 데이터를 통해 데이터 분포를 학습
- 가우시안 혼합 모델 (Gaussian Mixture Model, GMM)
- 이미지의 품질 개선
- 맥락에 맞게 이미지 빈 공간 자동 완성
- 생성 모델의 어려움 1 - 고차원 데이터를 모델링
- 복잡한 모든 특성의 분포를 알아야 함 : 데이터는 저차원의 정보로 표현할 수 있다는 가정을 활용함
- 생성 모델의 어려움 2 - 평가 지표
- 판별 모델과 달리 생성된 데이터에 대한 정량적 평가가 어려움
생성모델 활용 사례
- 화질 개선
- 저화질 영상의 화질을 개선 - 오래된 사진 복구
- 다양한 잡음이 낀 영상을 깔끔한 이미지로 복원 - AI 프로필
- 10~20 장 기반의 프로필 생성 - Webtoon AI Painter
- 스케치를 원하는 색상으로 자연스럽게 자동 채색하는 툴 - 상품 사진 생성
- 일반적으로 촬영한 사진을 상품 소개 사진처럼 변환해주는 제품 - 가상 옷 피팅
- 주어진 사람과 옷을 합성하는 기술 - 텍스트 기반 영상 생성 (Midjourney)
- 텍스트를 입력받아 사실적인 묘사, 추상적 표현을 풍부하게 생성하여 예술 부분에 특화된 생성 모델 - 춤추는 영상 생성
- 실존 인물을 입력으로 받아 해당 인물이 춤추는 영상 생성 - 오디오 기반 비디오 합성
- 한 장의 사진과 음성으로 입력 사진에 해당하는 사람이 말하는 동영상 합성 - AI 더빙
- 동영상 번역과 이에 맞게 입모양을 만들어주는 제품 - 가상 아바타와 동영상 생성
- 텍스트를 사람이 말하는 영상으로 변환해주는 제품 - AI 음악 생성
- 기존 음성 소스를 활용, 새로운 음악에 입히는 방식의 음악 생성 - Gen-2 (Runway AI)
- 다양한 입력 기반 동영상 생성 및 편집 툴 - ClipDrop (Stability AI)
- 다양한 이미지 편집 기능 제공
최대 가능도 추정법 (Maximum Likelihood Estimation, MLE)
- 가능도 (Likelihood)와 로그가능도 (Log-likelihood)
- 모델 파라미터 𝜃에 의존하는 분포 p(x; 𝜃) 를 따르는 n개의 데이터 x₁, x₂, …, xₙ 관찰
- 데이터로부터 모델 파라미터 𝜃를 어떻게 추정할 수 있을까? → 가능도를 최대화하는 파라미터를 찾자! - 최대 가능도 추정법(Maximum Likelihood Estimation, MLE)
- 가능도를 최대화하는 파라미터 𝜃를 찾는 방법
- 일반적으로 가능도 함수의 미분을 통해 계산
- 동전 던지기 예제: 가능도: L(𝜃) = 𝜃 7 (1-𝜃) 3
- L(0.6) = 0.67 0.43 = 0.0017915904
- L(0.7) = 0.77 0.33 = 0.0022235661 → 가장 큼!
- L(0.8) = 0.87 0.23 = 0.0016777216
-> 앞면이 나올 확률의 추정값 = 0.7 - 생성 모델의 학습
- 쿨백-라이블러 발산 최소화
- 두 분포 Pdata 와 P𝜃 사이의 거리 → 쿨백-라이블러 발산 (Kullback-Leibler Divergence, KL-Divergence)
- 최소화 = 로그가능도 최대화! - 생성 모델과 최대 가능도 추정법 (MLE)
- 생성 모델의 학습은 최대 가능도를 최적화하며 진행할 수 있음
- 쿨백-라이블러 발산 (KL Divergence)은 최대 가능도 최적화에 활용 가능한 기준이 됨
- 그러나 데이터의 정확한 분포를 알 수 없어 이 같은 작업은 바로 적용하기 어려움
'Study > 머신러닝' 카테고리의 다른 글
Generation-오토 인코더 (0) | 2025.01.09 |
---|---|
Generation-생성 모델 평가지표 (0) | 2025.01.09 |
CV 모델 성능 높이기 (0) | 2025.01.09 |
CV 트렌드 (1) | 2025.01.09 |
Segmentation (0) | 2025.01.09 |