Study/자연언어처리 NLP

LLM 기반 Model-Centric NLP 연구

김 도경 2025. 2. 4. 18:03
LLM Tuning

 

  • Fine-Tuning
    - Fine-Tuning은 LLM 이전 세대부터 사용되던 용어로 사전학습된 모델을 특정 작업에 특화 학습하는 과정을 칭함
    - LLM Fine-tuning은 일반적으로 Instruction Tuning 을 지칭
    - LLM은 방대한 수의 파라미터를 갖기 때문에 tuning에 많은 Computation resources가 요구됨 ⇒ Parameter Efficient Tuning

  • Parameter Efficient Tuning
    - LLM 전체가 아닌 일부분만을 튜닝하는 방법론 
    - Adapter-based Fine-tuning (Adapter-based, Prefix-tuning …)

  • Adapter-based Tuning
    - 기존 모델과 별도의 파라미터를 가진 Adapter module을 기존 model에 추가하여 학습
    - 일반적으로 기존 모델의 파라미터는 freeze시켜 놓고 adapter만을 학습

  • LoRA: Low-Rank Adaptation of Large Language Models
    - Gradient values (𝜟W)을 low-rank r로 mapping 해주는 행렬 A, B를 학습

    - Memory and Storage usage의 절약:
         - GPT-3 175B의 경우, 1.2TB → 350GB VRAM으로 감소
         - Checkpoint size가 350GB → 35MB로 감소 (r=4)
    - Training speed 약 25% 증가 (GPT-3 175B 기준)
    - Fast Task Switching: LoRA weights만 교체하여 Task 사이의 빠른 전환 가능

  • QLoRA: Efficient Finetuning of Quantized LLMs
    - 아래 3가지 components에 기반하여 LoRA를 Memory efficient하게 구현
    - 4-bit NormalFloat (NF4): 입력 텐서의 분포가 고정되어 있을 때, 각 분위 구간에 동일한 수의 값을 할당함으로써 신경망의 가중치를 효율적으로 표현하고, 메모리 사용량을 줄이면서 성능 손실을 최소화
    - Double Quantization: 입력 값의 비트 수를 양자화할 때 사용되는 Quantization constants를 다시 양자화하여 메모리 사용량을 평균 0.5비트에서 0.127비트로 줄이고, 파라미터 당 0.373비트의 메모리 절감
    - Paged Optimizer: NVIDIA unified memory feature에 기반하여 GPU 메모리 부족 상태가 되면, Optimizer state에 대한 페이징 메모리를 CPU RAM으로 이동시키고, state update가 필요할 때 다시 GPU로 페이지를 되돌리는 기법

  • Prefix-Tuning: Optimizing Continuous Prompts for Generation
    - Transformer layer에 입력되는 input token의 앞에 trainable parameters를 추가하고, 해당 parameters만 튜닝하는 방법론
    - 0.1%만의 파라미터로, full data fine-tuning과 비슷한 성능 달성
    - 입력의 prefix 에 matrices (Soft-Prompt 형태)를 각 Layer마다 붙여준 뒤, 기존 모델의 Parameters는 freeze하고 prefixes만을 학습

  • LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention
    - LLaMa를 Freeze, 1.2M의 Adapter만을 학습 
    - Zero-initialized gating 방법론을 적용, Randomly Initialized Prompt의 학습을 최적화
    - Plug and Play! Multi-Model Instruction!

    - Prefix-tuning과 같이 Transformer Layers 입력 앞에 Adaptation Prompt를 추가하여 튜닝: 상위 L개 layers에만 적용
    - Zero-initialized Attention: Randomly initialized prompts가 학습 초기에 학습을 방해할 수 있기 때문에, Zero-gating을 추가하여 함께 학습

    - Multimodality: CLIP과 같은 Pre-trained Vision Models를 결합, 이미지의 Global Features를 추출한 뒤 Adapter Prompt에 결합을 통해 Multimodal 모델링 가능!
Domain Specialization
  • Domain Specialization (도메인 특화)
    - General Domain의 데이터로 사전학습된 언어 모델은 특정 Domain에 대한 이해력이 부족함
    - Domain Specialization은 언어 모델을 특정 Domain에 대한 데이터로 특화 학습시키는 과정을 의미

  • External Augmentation (Knowledge Augmentation)
    - 외부 소스에서 관련 정보를 검색하여 모델의 파라미터를 미세 조정하지 않고 도메인 지식을 향상시키는 Retrieval Augmentation

  • Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (2020)
    - Language Model과 Retrieval Model을 End-to-End Framework로 구성하여 Knowledge-Intensive NLP task 학습/평가 (Retrieval Augmented Generation, RAG)

  • Retrieval-Augmented Generation with LLMs
    - LLM 에서는 검색 모듈 (Dense Retriever 또는 Search API)를 활용하여 검색된 Domain Context를 Prompt에 포함시켜 Domain Knowledge를 Model Tuning 없이 In-Context Learning을 통해 학습하도록 함

  • In-Context Retrieval-Augmented Language Models
    - In-Context RALM: 검색된 Context를 학습 없이 In-Context Learning (ICL)만으로 Augment하여 모델에 입력 ICL에 제공되는 Retrieved Context의 관련도가 높아질수록 LM의 성능이 크게 개선됨을 보임

  • GeneGPT: Augmenting Large Language Models for Access to Biomedical Information
    - National Center for Biotechnology Information (NCBI)의 Web APIs와 LLM을 함께 활용하는 방법론 제안

  • Verify-and-Edit: A Knowledge-Enhanced Chain-of-Thought Framework
    - Chain-of-Thought (CoT) prompting에 External Augmented Knowledge에 기반한 Verification process 제안 Reasoning Step의 각 단계를 검색된 지식에 기반하여 Editing하고, Edited reasoning step에 기반하여 새롭게 정답 예측

Domain Tuning
  • Knowledge-updated Domain Specialization
    - General Text에 사전 학습된 LLM을 Domain-specific corpus로 Tuning

  • Data-centric FinGPT: Financial Large Language Models
    - 기존 LLMs의 금융 분야에서의 부족한 성능: 일반 텍스트 데이터와 금융 텍스트 데이터의 차이로 인하여 발생
    - 대규모 웹데이터를 활용, 실시간 금융 데이터를 자동 수집하여 활용하는 Data Curation Pipeline 제안
    - QLoRA 및 Stock Prices에 기반한 강화 학습으로 FinLLM을 학습하는 방법론 제안

  • Towards Expert-Level Medical Question Answering with Large Language Models
    - USMLE (미국 의사 면허 시험) 질의에서 ‘합격' 점수를 넘은 최초의 모델인 Med-PaLM을 개선한 Med-PaLM 2 제안

  • Towards Expert-Level Medical Question Answering with Large Language Models
    - PaLM 2 기반: Google’s large language model
    - Instruction fine-tuning: MedQA, MedMCQA, HealthSearchQA, LiveQA and MedicationQA를 Instruction 형식의 데이터로 가공, mixture 를 구성하여 PaLM 2 튜닝에 활용

  • Towards Expert-Level Medical Question Answering with Large Language Models
    - Few-shot prompting: Few examples를 제공하여 학습/평가
    - Chain-of-Thought (CoT) prompting[19]: the final answer에 대한 a step-by-step explanation을 제공하여 학습/평가
    - Self-consistency[20]: Complex reasoning paths를 요구하는 medical domain에 효과적
    - Ensemble refinement: CoT 및 Self-Consistency 기반 self-refining 기술 적용

'Study > 자연언어처리 NLP' 카테고리의 다른 글

LLM 기반 Application 연구  (0) 2025.02.05
LLM 기반 Evaluation-Centric NLP 연구  (2) 2025.02.04
LLM 기반 Data-Centric NLP 연구  (2) 2025.02.04
Large Language Model의 근간 이론  (1) 2025.02.04
Large Language Model  (1) 2025.02.04