Generation-확산모델

Study/머신러닝

Generation-확산모델

김 도경 2025. 1. 10. 18:28

확산 확률 모델( DPM)

- 확산 모델은 정방향/역방향 과정으로 구성됨

- 디노이징 확산 확률 모델(DDPM)은 현재 더해진 잡음을 추정하는 방식의 목적 함수를 취함
- 생성은 잡음을 점진적으로 제거하는 방식으로 진행되어 매우 느림

확산 확률 모델 (Diffusion Probabilistic Model, DPM, 2015)
- 최근 활발히 연구되고 있는 모델
DPM - 확산과 확률
- 확산이란? → 물질(픽셀 값)이 섞이고 번져가다가 마지막에는 균일한 농도(노이즈)가 되는 현상
- 확산 현상을 시간에 따라 확률적 모델링 : 마르코프 체인 (Markov Chain) 미래는 과거가 아닌 현재에만 의존!
DPM의 구조
- 정방향 확산 (Forward Diffusion Process): 데이터 → 노이즈 (고정)
- 이미지 파괴 과정 = T = 1,000 시점 동안 노이즈를 주입
- 𝛽t 를 시간에 따라 증가하도록 정함 (예시: 𝛽1 = 0.0001 → 𝛽T = 0.02)

- 역방향 확산 (Reverse Diffusion Process): 데이터 ← 노이즈 (학습)
- 이미지 생성 과정 = 노이즈를 제거하는 과정 은 계산 불가 (모든 데이터 x0 를 고려해야 함)
- 𝛽t 가(노이즈가) 작을 때 정규분포로 근사 가능!
- 정규분포 근사
- 매 시점 마다 정규분포 형태를 가짐 (정방향 확산과 유사)
DPM의 손실 함수
- VAE와 유사하게 로그 가능도의 하한을 최대화!
- L0 : 재구성(Reconstruction)이 잘 되는가? (x0 → x1 → x0 ) (VAE reconstruction 과 동일)
- 두 정규분포 사이의 쿨백-라이블러 발산 계산
- 정방향 확산에서 t 시점 노이즈를 제거한 평균과 역방향 확산 평균의 평균제곱오차(MSE)
VAE와 다른 점
- 잠재 변수의 차원이 모두 데이터의 차원과 동일! + 여러 단계의 잠재 변수를 가짐
- 디코더를 모든 시점에서 공유 + 인코더는 학습되지 않음 (미리 정해둔 크기(𝛽ₜ )의 노이즈를 삽입해나감)

디노이징 확산 확률 모델 (DDPM)

디노이징 확산 확률 모델(Denoising DPM, DDPM, 2020)
- 손실 함수를 간단한 형태로 정리함 : LT ≈ 0 이 되도록 𝛽ₜ 를 설정함 → LT 무시
- Lt-1 : 재매개변수화를 이용해 데이터 x t를 x0와 노이즈 𝜀 로 표현
- 최종 손실 함수: t 시점에 추가된 노이즈를 잘 예측하는가?
DDPM의 구조
- 노이즈 예측: U-net 구조
- t 시점 주입: 사인 곡선적 포지션 임베딩 (Sinusoidal Position Embedding)
생성 과정
- 노이즈 xT 를 표준정규분포에서 샘플링
- for t = T, …, 1:
- x t 가 주어졌을 때 모델 로부터 x t-1 샘플링
생성 결과
- t 가 클 때: 핵심적인 특징을 담고 있음
- t 가 작을 때: 세부적인 특징을 담고 있음

-> 고해상도 이미지 생성 가능 (T = 1,000)
DDPM의 한계점
- 느린 생성 과정: 5만개의 32x32 크기 이미지 생성 위해 20시간 필요
- 조건부 생성 불가
- DDPM은 Unconditional 모델 (조건 없는 모델)
- 품질-다양성 조절 불가

생성 과정 과속화

DDIM (Denoising Diffusion Implicit Model, 2021)
- DDPM과 같은 손실 함수를 가지며 T = 1,000 시점에 대해 동일하게 학습
DDPM과 마르코프 체인 (Markov Chain)
- 샘플링 과정에서 마르코프 체인이 등장함
- 잡음이 조금 덜 낀 샘플을 더 심한 샘플과 모델이 이를 통해 구한 노이즈로 추정
- 마르코프 체인 (Markov Chain) : 미래는 과거가 아닌 현재에만 의존함 (현 상태는 직전 상태에만 영향을 받음)
- 더 먼 과거는 이미 직전 과거에 반영이 되어있음
DDPM에서 DDIM으로
- 학습은 DDPM 처럼 그러나 빠른 sampling을 원함 -> DDPM이 활용하는 중요 특성을 만족해야함
- 특성을 만족하는 정방향 함수를 정의함
DDIM의 생성 과정
- 생성 시 노이즈를 추가하지 않는 방법 제안: p𝜃 (x1 | x3 ) 에서 분산을 0으로 생각
- 랜덤성은 오직 표준정규분포를 따르는 노이즈 xT 에만 존재
DDIM의 영상 생성
- T=1000 으로 학습된 모델의 DDIM을 활용한 20, 50, 100 step sampling
- 노이즈 공간에서의 내삽(Interpolation) 가능
- 노이즈 xT 2개(양 끝)를 샘플링 → 내분점들을 역방향 확산
Denoising Diffusion GANs (2022)
- DDPM의 핵심 = 노이즈가 작을 때 q(x t-1 |x t ) 는 정규분포로 근사 가능 → 노이즈가 크다면?
- 시점이 0에 가까울수록 디노이징 분포가 정규분포보다 복잡해짐
- 적은 시점(T ≤ 8)을 사용하기 위해 조건부 GAN을 활용하여 복잡한 디노이징 분포를 학습
- 적대적 학습으로 t 시점의 데이터 x t 가 주어졌을 때 t-1 시점의 데이터 x t-1 의 분포 학습 q(x t-1 | x t ) ≈ p𝜃 (x t-1 | x t )
Progressive Distillation (2022)
- 학습된 확산 확률 모델로부터 시점을 절반으로 줄이는 경량화된 모델을 반복적으로 학습
- 이웃한 2개의 역방향 확산 과정을 하나로 합침
Consistency Model and Distillation (2023)
- 학습시 모든 Time Step에 대해 동일한 결과를 내도록 학습을 진행함
- 이를 Pretrained Diffusion Model에 적용, Distillation을 진행할 수 있음
Latent Consistency Model (2023)
- 1 step to 8 steps

조건부 생성 DPM

조건부 DPM
- 정방향 확산은 고정
- 역방향 확산(생성 과정)에서 조건 추가
Guided Diffusion (2021)
- t 시점 데이터 x t 로부터 클래스 y 를 예측하는 분류기 p𝜙 (y|x t , t) 를 사전학습
- 생성 과정에서 분류기의 그래디언트(= 로그 예측 확률이 가장 가파르게 증가하는 방향)를 따라 이동
- 분류기 그래디언트의 스케일이 중요! → 얼마나 해당 클래스의 정보를 주입할 것인가?
- 스케일을 조절하면 클래스를 유지하도록 생성 가능
- 단점: 분류기를 추가 학습해야 함
Classifier-free Diffusion Guidance (2021)
- 분류기를 베이즈 정리를 활용하여 대체함
- 확산 확률 모델과 조건부 확산 확률 모델을 함께 학습함 (학습할 때 랜덤하게 클래스를 버림)
- 생성할 때 두 모델에서 예측한 노이즈의 가중합 계산
Fast Sampling – Training-free / Training-based
Conditional Model – Classifier-based / Classifier-free

잠재 확산 모델 =Latent Diffusion Model (LDM)

- 입력과 출력을 잠재 공간으로 매핑 후 학습해, 높은 품질의 영상을 효율성 높게 학습, 생성함
- 일반 생성 외에도 텍스트, Layout, 가려진 이미지 등 다양한 조건 기반의 생성이 가능함
- 현재 가장 활발히 활용, 연구되는 모델

잠재 공간에서의 연산의 필요성과 장점

고해상도 이미지 생성
- 고해상도 이미지 생성 분야의 문제
- 고해상도 이미지 처리는 많은 양의 계산 자원을 필요로 함
- 단순 계산량의 문제를 넘어 에너지, 탄소 문제까지 도달할 수준에 이름
- 고해상도 이미지 생성 분야의 문제
- 확산 모델은 훈련 과정 뿐 아니라 추론 과정에서도 많은 자원이 필요
- 고차원 이미지 공간 (Channel ⨉ Height ⨉ Width)에서 계속해서 반복적인 계산을 동반
- 성능을 유지하며 계산 자원을 줄일 수 있다면 접근성이 높아질 것
- 알아차리기 어려운 부분에 모델이 큰 힘을 쏟는 문제
픽셀 공간에서 잠재 공간으로
- 기존의 확산 모델들은 고차원 이미지 공간에서 연산을 반복함
- 이미지의 정보를 유지한 채로, 차원을 축소할 수 있다면 계산 복잡도를 감소시킬 수 있음
- 영상 생성은 인지적 압축 과정과 의미적 압축으로 대략적 구분이 가능함
- 인지적 압축: 과도한 세부 사항을 제거하며 핵심적인 특징을 잠재 표현으로 요약
- 의미적 압축: 데이터의 의미적, 구조적 특징을 학습
- 확산 모델의 정방향, 역방향 확산 과정을 이미지 공간이 아닌 오토 인코더의 잠재 공간에서 진행
- 재건된 이미지와 실제 이미지를 패치 단위로 판별하는 적대적 오토 인코더 (Autoencoder + GAN) 활용
잠재 확산 모델
- 실제 이미지의 고차원 공간이 아닌 잠재 공간에서 노이즈 연산을 반복하도록 설계
잠재 확산 모델의 구조
- 확산 과정의 대상 = 이미지 x 가 아닌 잠재 표현 z = 과도한 세부 사항들을 제거한 것
- z 는 1차원 벡터가 아닌 이미지와 동일한 차원 (Channel x Height x Width) → 이미지의 공간 정보를 더 잘 보존
- 기존 확산 모델보다 계산, 시간 자원 모두 효율적
변분 오토 인코더와 확산 모델 훈련
- 잠재 확산 모델을 훈련하기 위해서는 두 가지 학습 단계가 필요하며, 이는 순차적으로 진행돼야 함
1. 좋은 잠재 공간을 얻기 위해 변분 오토 인코더를 학습하는 과정
2. 얻어진 잠재 공간으로부터 확산 모델을 학습하는 과정
사전 훈련: 벡터 양자화 변분 오토 인코더
- 재건된 이미지를 가짜 이미지로 두어 실제 이미지와 판별하는 과정 포함 (VQ-GAN)
- 잠재 확산 모델의 생성 과정: 확산 모델의 출력을 벡터 양자화한 후 디코더 D 로부터 이미지 생성
확산 모델 훈련
- 확산 모델과 동일하게 노이즈 예측 모델 훈련
- 노이즈 주입의 대상이 입력 이미지가 아닌 잠재 표현인 점이 기존 확산 모델과의 차이
결과 분석
- 기존 확산 모델보다 계산 복잡도가 감소했음에도 고해상도 이미지를 잘 생성해냄
- 잠재 공간의 연산이 노이즈 감소와 의미에 집중하는 역할을 충실히 수행했다고 볼 수 있음

잠재 확산 모델을 활용한 Stable Diffusion 모델 - 조건부 생성

잠재 확산 모델을 이용한 Text-to-Image
- 잠재 확산 모델은 확산 모델과 마찬가지로 다양한 조건부 생성이 가능
- Text-to-Image, 초고해상도 이미징, 인페인팅 등
Text-to-Image: 텍스트 인코더
- 잠재 확산 모델은 텍스트 인코딩을 위해 CLIP 의 텍스트 인코더를 활용
Text-to-Image: 텍스트 인코더 = CLIP
- 텍스트 입력이 추가되는 경우, 텍스트 인코더를 사전 훈련하는 단계가 필요함
- CLIP은 텍스트와 이미지 간의 대조 학습을 통해 훈련
- 텍스트-이미지 쌍에 대한 이해가 높은 모델
Text-to-Image: 확산 모델과의 차이
- 텍스트 정보와 노이즈화된 잠재 표현의 관계성 학습을 위해 Cross-attention (교차 어텐션)을 추가
- Cross-attention의 대상이 텍스트-이미지가 아니라 텍스트-잠재 표현임을 주목
Text-to-Image 모델의 문제점
- text 설명 만으로 정확히 원하는 대상을 얻어내기 어려움

확산 모델의 개인화 (Personalization)

- 우리가 원하는 대상에 관한 사진이 일부 있을 때 피사체에 대한 새로운 이미지를 텍스트로부터 생성하는 방법
- 거대 모델로 하여금 원하는 객체를 생성할 수 있게하는 기술
- 적게는 5장 이하의 데이터만으로도 목표를 달성할 수 있음
- LoRA 와 함께 사용할 수도 있으며 다양한 기술은 동시에 활용되는 경우도 있음

텍스트 반전 (Textual Inversion, 2022)
- 학습 데이터: 우리가 원하는 대상에 관한 이미지 3~5개
- Textual Inversion: 생성 이미지로부터 하나의 단어 임베딩을 학습하는 방법
- LDM의 손실함수로부터 S* 의 임베딩 v* 학습 (텍스트 트랜스포머, LDM은 고정)
- 새로운 단어 S* 는 물체 또는 스타일을 의미하게 됨
드림부스 (DreamBooth, 2022)
- 사전학습된 text-to-image 확산 모델 중 U-net을 미세 조정(Fine-tuning)
- 파인 튜닝의 문제점
- 언어 드리프트(Drift): 대상과 동일한 클래스의 이미지를 생성하는 방법을 천천히 잊어버림
- 다양성: 포즈와 각도 등이 새로운 학습 이미지에 과적합될 수 있음
- 텍스트 임베딩에서 우리가 원하는 대상을 구분하려면?
- 대상의 클래스를 지정하고 “[식별자] [클래스]” 로 텍스트 작성 (ex. [백경준의] [강아지])
- 식별자는 영어 단어 대신 3글자 정도의 임의의 문자로 작성
- 새로운 손실함수 도입
- Reconstruction Loss: “[식별자] [클래스]” 텍스트를 조건부로 노이즈에서 이미지를 잘 생성하는가?
- Prior Preservation Loss: 기존 클래스의 생성 이미지가 새로운 클래스 이미지에 영향받지 않고 잘 유지되는가?
- Textual Inversion보다 다양한 작업 수행 가능
로라 (Low-Rank Adaptation, LoRA, 2021)
- 자연어 처리 모델의 파인튜닝에 활용하는 기법인 LoRA 활용
- Text Encoder 또는 Unet의 Cross-Attention 레이어에 LoRA 기법을 적용하여 파인튜닝
- 기존 가중치는 유지하고 가중치 변화량을 학습함 → 기존 학습 결과를 잊지 않는 효과
- 가중치 변화량을 행렬 2개의 곱으로 분해 → 학습 파라미터 수가 대폭 감소 (r = 4)
- 파인튜닝의 경우 아주 작은 수의 파라미터를 업데이트하는 것만으로 좋은 성능을 보임
- 학습 데이터: 우리가 원하는 대상에 관한 이미지 10~15개
- DreamBooth와 함께 사용 가능
ControlNet (2023)
- 다양한 structural input을 조건으로 주기 위한 방법
- 추가적인 layer를 학습해, U-Net은 유지하고 차이를 추가하는 방법
Face0 (2023)
- 사람 얼굴을 조건삼아, 동일한 얼굴의 다양한 결과를 생성하는 기법
- 얼굴에서 특징을 추출, 텍스트 표현과 함께 모델에 제공함
IP-Adapter (2023)
- Text 뿐만 아니라 이미지 feature를 함께 입력받아 그에 맞게 적절히 생성해낼 수 있게 함
- 별도의 cross-attention layer를 두어 따로 학습함
Imagic (2023)
- 텍스트만을 활용한 의미적 편집 수행
Perfusion (2023)
- Attention 의 key를 활용해 여러 객체를 동시에 개인화 수행

저작자표시 비영리 변경금지

'Study > 머신러닝' 카테고리의 다른 글

적대적 생성 신경망(Generative Adversarial Networks) (0)	2025.01.09
Generation-오토 인코더 (0)	2025.01.09
Generation-생성 모델 평가지표 (0)	2025.01.09
Generation-생성 모델 (2)	2025.01.09
PyTorch Hydra (0)	2024.12.17

현재글Generation-확산모델

개발 성장 노트

Upstage AI Lab 5기와 코딩관련 공부에 대해서 기록을 하기 위한 블로그입니다.

경진대회, 업스테이지패스트캠퍼스, cv, UpstageAILab, 패스트 캠퍼스, 업스테이지패스트캠프, 패스트캠프업스테이지에이아이랩, 부트캠프, 딥러닝, 패스트캠퍼스업스테이지부트캠프, 국비지원취업, 국비지원, ai 부트캠프, LLM, 자연언어처리, 인공지능, 패스트캠퍼스, 패스트캠퍼스업스테이지에이아이랩, 패스트캠퍼스AI부트캠프, 머신러닝,

Today :
Yesterday :

개발 성장 노트