Study/머신러닝

Generation-생성 모델

김 도경 2025. 1. 9. 14:53
생성모델의 발전 과정
  • 고전 생성 모델
    - 생성 모델 (Generative models)
        - 데이터는 저차원의 필수적인 정보로부터 생성 가능하다는 가정하에 분포를 학습, 새로운 데이터를 생성

    - 확률 분포 추정과 근사
         - 가우시안 혼합 모델 (Gaussian Mixture Model, GMM, 1981) : 여러 개의 정규 분포
         - 제한된 볼츠만 머신 (Restricted Boltzmann Machine, RBM, 1985) : 볼츠만 분포
         - 심층 신뢰망 (Deep Belief Network, DBN, 2006) : 여러 층의 RBM
         - 자기 회귀(Autoregressive Distribution Estimator, NADE, 2011) : 자기 회귀 기반의 생성 모델

  • VAE의 발전
    - VAE 발표 (2014)
        - 변분 오토 인코더 (Variational Autoencoder, VAE)
    - 분포 개선, 계층모형  (2016)
         - Adversarial Autoencoder (AAE)
         - Ladder VAE (LVAE)
    - 학습 개선, 벡터 양자화( 2017 )
         - Wasserstein Autoencoder (WAE)
         - Beta-VAE
         - Vector-Quantized VAE (VQ-VAE)
    - Scale-up & 고성능, 고해상도 모델 제안(2019)
         - VQ-VAE-2
    - Deep VAE(2020)
         -  NVAE

  • GAN의 발전
    - GANs, cGAN 발표 (2014)
        - 적대적 생성 신경망 (Generative Adversarial Networks, GANs)
        - 조건부 적대적 생성 신경망 (Conditional GAN, cGAN)
    - GAN 구조 발전(2015)
        - Deep Convolutional GAN (DCGAN)
    - 손실 함수, 학습 방법 연구 (2016)
        - Least Squares GAN (LSGAN)
        - Wasserstein GAN (WGAN)
    - 계층 모형 / 새로운 적용 분야 (2017)
        - Progressive Growing of GANs (PGGANs)
        - CycleGAN
    - 높은 다양성과 높은 화질 모델(2019)
        -  StyleGAN
        -  BigGAN
    - 더 높은 성능과 다양한 도메인으로의 확장(2023)
       -  StyleGAN-T
       -  GiGaGAN

  • 확산 모델 (Diffusion Model, DM)의 발전
    - 확산 모델 (Diffusion Model, DM) 등장 (2015)
       - 열확산 현상 이론 도입
    - 높은 성능의 확산 확률 모델 (Diffusion Probabilistic Model, DPM) 등장 (2020)
       - Denoising DPM (DDPM)
    - 생성 방식 및 모델 개선 (2021)
       - Guided DPM
       -  Denoising Diffusion Implicit Model (DDIM) (2022)
    - 다양한 조건 기반 영상 생성
       - Latent DPM (LDM, Stable Diffusion)
    - 높은 생성물 의미론 제어 방법 다양한 조건 기반 영상 생성 및 개인화 방법 등장 (2023)
       - ControlNet, DreamBooth, Face0, …
판별모델과 생성모델

  • 판별 모델
    - 데이터 X가 주어졌을 때, 특성 Y가 나타날 조건부 확률 p(Y|X)를 직접적으로 반환하는 모델
    - 주어진 데이터를 통해 데이터 사이의 경계를 예측
    - 로지스틱 회귀 분석

    - 어떤 데이터를 서로 다른 클래스로 분류해주는 문제에 활용될 수 있음
    - 정상 데이터에 대한 경계를 최대한 좁혀 이를 벗어나는 이상치를 감지하는 문제에도 활용 가능

  • 생성 모델
    - 데이터 X와 특성 Y의 결합(joint) 분포 p(X, Y) or Y가 주어질 때 X의 조건부(conditional) 분포 p(X|Y)를 추정하는 모델
    - 주어진 Y가 없는 경우, 데이터의 주변(marginal) 분포 p(X)를 추정하는 모델
    - 주어진 데이터를 통해 데이터 분포를 학습
    - 가우시안 혼합 모델 (Gaussian Mixture Model, GMM)

    - 이미지의 품질 개선
    - 맥락에 맞게 이미지 빈 공간 자동 완성

    - 생성 모델의 어려움 1 - 고차원 데이터를 모델링
          - 복잡한 모든 특성의 분포를 알아야 함 : 데이터는 저차원의 정보로 표현할 수 있다는 가정을 활용함
    - 생성 모델의 어려움 2 - 평가 지표
          - 판별 모델과 달리 생성된 데이터에 대한 정량적 평가가 어려움
생성모델 활용 사례
  • 화질 개선
    - 저화질 영상의 화질을 개선
  • 오래된 사진 복구
    - 다양한 잡음이 낀 영상을 깔끔한 이미지로 복원
  • AI 프로필
    - 10~20 장 기반의 프로필 생성
  • Webtoon AI Painter
    - 스케치를 원하는 색상으로 자연스럽게 자동 채색하는 툴
  • 상품 사진 생성
    - 일반적으로 촬영한 사진을 상품 소개 사진처럼 변환해주는 제품
  • 가상 옷 피팅
    - 주어진 사람과 옷을 합성하는 기술
  • 텍스트 기반 영상 생성 (Midjourney)
    - 텍스트를 입력받아 사실적인 묘사, 추상적 표현을 풍부하게 생성하여 예술 부분에 특화된 생성 모델
  • 춤추는 영상 생성
    - 실존 인물을 입력으로 받아 해당 인물이 춤추는 영상 생성
  • 오디오 기반 비디오 합성
    - 한 장의 사진과 음성으로 입력 사진에 해당하는 사람이 말하는 동영상 합성
  • AI 더빙
    - 동영상 번역과 이에 맞게 입모양을 만들어주는 제품
  • 가상 아바타와 동영상 생성
    - 텍스트를 사람이 말하는 영상으로 변환해주는 제품
  • AI 음악 생성
    - 기존 음성 소스를 활용, 새로운 음악에 입히는 방식의 음악 생성
  • Gen-2 (Runway AI)
    - 다양한 입력 기반 동영상 생성 및 편집 툴
  • ClipDrop (Stability AI)
    - 다양한 이미지 편집 기능 제공
최대 가능도 추정법 (Maximum Likelihood Estimation, MLE)
  • 가능도 (Likelihood)와 로그가능도 (Log-likelihood)
    - 모델 파라미터 𝜃에 의존하는 분포 p(x; 𝜃) 를 따르는 n개의 데이터 x₁, x₂, …, xₙ 관찰
    - 데이터로부터 모델 파라미터 𝜃를 어떻게 추정할 수 있을까? → 가능도를 최대화하는 파라미터를 찾자!

  • 최대 가능도 추정법(Maximum Likelihood Estimation, MLE)
    - 가능도를 최대화하는 파라미터 𝜃를 찾는 방법
    - 일반적으로 가능도 함수의 미분을 통해 계산

    - 동전 던지기 예제: 가능도: L(𝜃) = 𝜃 7 (1-𝜃) 3
         - L(0.6) = 0.67 0.43 = 0.0017915904
         - L(0.7) = 0.77 0.33 = 0.0022235661 → 가장 큼!
         - L(0.8) = 0.87 0.23 = 0.0016777216
    -> 앞면이 나올 확률의 추정값 = 0.7

  • 생성 모델의 학습
      - 쿨백-라이블러 발산 최소화
        - 두 분포 Pdata 와 P𝜃 사이의 거리 → 쿨백-라이블러 발산 (Kullback-Leibler Divergence, KL-Divergence)
        - 최소화 = 로그가능도 최대화!

  • 생성 모델과 최대 가능도 추정법 (MLE)
    - 생성 모델의 학습은 최대 가능도를 최적화하며 진행할 수 있음
    - 쿨백-라이블러 발산 (KL Divergence)은 최대 가능도 최적화에 활용 가능한 기준이 됨
    - 그러나 데이터의 정확한 분포를 알 수 없어 이 같은 작업은 바로 적용하기 어려움

'Study > 머신러닝' 카테고리의 다른 글

Generation-오토 인코더  (0) 2025.01.09
Generation-생성 모델 평가지표  (0) 2025.01.09
CV 모델 성능 높이기  (0) 2025.01.09
CV 트렌드  (1) 2025.01.09
Segmentation  (0) 2025.01.09