Study/자연언어처리 NLP

Cross Lingual LLM

김 도경 2025. 2. 5. 12:48
간단한 전이학습 방법
  • Instruction Tuning
    - 목표 언어에 대한 Instruction Tuning만 진행하는 방법
    - 사전학습된 LLM에 목표 언어에 대한 Instruction Tuning을 진행하는 방법
    - 소스 언어로 학습된 모델이 목표 언어에 대한 Instruction Tuning 데이터를 학습하여 목표 언어에 대한 이해를 높이는 방법

    - 조건: 사전학습을 진행할 LLM이 목표 언어 대해 낮은 OOV (Out of vocabulary) rate의 vocabulary를 가지고 있어야 하며, 소스 언어와 목표 언어의 유사도가 높아야 함
    - 장점: Instruction Data 만으로 손쉽게 학습 가능
    - 단점: 성능이 낮을 수 있음

  • Further Pre-training
    - 목표 언어에 대해 사전학습을 우선 진행하는 방법
    - 기존 사전학습된 LLM을 다른 언어로 추가 사전학습 하는 방법

    - 대부분의 LLM은 영어에 대해 사전학습 되어 있음
    - 목표 언어에 대해 추가적인 사전학습을 진행하여, 목표 언어에 대한 이해를 높이는 방법
    - 추가 사전학습된 LLM에 Instruction Tuning을 진행하여 다른 언어에 대한 사전학습 모델을 획득

    - 조건: 사전학습을 진행할 LLM이 목표 언어 대해 낮은 OOV의 vocabulary를 가지고 있어야 함
    - 장점: 목표 언어에 대한 지식을 풍부히 갖춘 LLM을 얻을 수 있음
    - 단점: 사전학습 코퍼스 구축, 사전학습 등의 자원 소모 심함



  • Vocabulary Extension
    - 목표 언어에 대한 토큰을 Vocabulary에 추가하는 방법
    - 기존 Vocabulary에 목표 언어에 대한 토큰들을 추가하여 확장된 임베딩을 사용하는 방법 

    - 대부분의 LLM의 Vocabulary는 영어에 대해 학습된 Subword Embeddings을 가지고 있음
    - 심지어, 몇몇 LLM은 특정 언어에 대해 OOV Rate가 굉장히 높음
    - 모델에 대한 언어의 이해도를 높이기 위해서, 목표 언어에 대한 토큰들을 추가
    - 새로운 토큰 임베딩에 대한 학습을 위해, 추가적으로 Further Pre-training 혹은 Instruction Tuning을 진행

    - 조건: 무작위로 초기화된 토큰 임베딩을 학습하기 위하여 추가적인 Further Pre-training 혹은 Instruction Tuning이 필요
    - 장점: 목표 언어에 대한 토큰 임베딩 구축으로, 모델의 능력 향상을 기대할 수 있음
    - 단점: 목표 언어에 대해 잘 구축된 Vocabulary 필요, 무작위로 초기화된 Vocabulary 학습을 위해 추가적인 학습 시간 소요
모델 및 임베딩 학습 기반 방법
  • Adapting Monolingual Model (AMM) 
    - 목표 언어의 임베딩 레이어로 변환 후 임베딩만 Further Pre-training을 진행

  • Cross-Lingual Post-Training (XPT)
    - Phase 1 - 기존 소스 모델로 부터 언어적 차이를 이해하기 위한 학습 과정
        - 사전학습된 모델에 ITL (Implicit Translation Layer) 삽입 - 언어적 차이를 학습하는 레이어
        - 소스 언어의 임베딩을 목표 언어의 임베딩으로 교체 
        - ITL 및 교체된 임베딩만 Further Pre-training 진행 (기존 모델의 레이어는 학습하지 않음)
    - Phase 2 - 기존 소스 모델을 완전한 목표 언어 모델로 전이하기 위한 학습 과정
        - 기존 모델을 포함한, ITL과 임베딩레이어 모두 목표 언어에 대해 Further Pre-training 수행 
        - 이 과정에서 소스 언어 모델은 완전한 목표 언어 모델로 전이

  • GPT-recycle
    - 토큰 임베딩 초기화를 AMM과 같이 무작위 초기화를 진행하는 것이 아닌, 잘 학습된 다른 언어모델의 임베딩을 사용하는 방법
    - 단, 임베딩 레이어의 차원이 맞지 않을 경우 least-squares regression로 차원 확장

임베딩 정렬 기반 학습 전략

- 토큰 임베딩을 무작위로 목표 언어에 대해 초기화하여 사용하는 대신, 소스 언어와 목표 언어에 대한 토큰 임베딩을 유사도 기반으로 계산하여 초기 정렬 후에 학습하는 방법

  • WECHSEL
    - 기존 사전학습된 서브워드 임베딩과 목표 언어의 서브워드 임베딩을 계산하여 임베딩을 초기화 한 후에 Further Pre-taining을 진행

    - 1) 모델 파라미터 복사 및 토크나이저 교체: 영어 모델의 내부(임베딩이 아닌) 파라미터를 복사하고, 토크나이저를 목표 언어의 토크나이저로 교체
    - 2) 양방향 단어 임베딩 사용: 영어와 목표 언어를 포함하는 다국어 단어 임베딩을 사용하여, 영어 토큰과 의미적으로 유사한 목표 언어 토큰의 임베딩을 초기화
    - 3) 서브워드 임베딩 계산: 서브워드에 등장하는 n-gram의 임베딩을 합산하여 Subword 들의 임베딩을 계산
    - 4) 서브워드 유사성 계산: 계산된 목표 언어의 임베딩을 바탕으로, 소스 언어와 목표 언어의 서브워드 임베딩 간 유사성을 계산
    - 5) 유사성 기반으로 목표 언어 서브워드 임베딩 초기화: 계산된 유사성을 기반으로, 가장 유사한 k개의 소스 언어 임베딩의 가중 평균을 사용하여 목표 언어의 서브워드 임베딩을 초기화
    - 6) Further Pre-training: 초기화된 모델을 대상 언어 데이터셋에서 추가로 학습 (Freeze 없이 전체 학습)

Adapter 기반 학습 방법
  • Adapter 기반 학습 방법
    - LoRA, QLoRA, Prefix-tuning, P-Tuning 등의 Adapter 기반의 학습 방법은 모두 특정 Parameter만 학습
    - 이 방법들은 기존 모델의 언어적 특징을 유지하기 때문에 Cross-lingual 학습 방법으로 취급됨

'Study > 자연언어처리 NLP' 카테고리의 다른 글

Multimodal LLM  (0) 2025.02.05
Multilingual LLM  (2) 2025.02.05
LLM 기반 Prompt Engineering 연구  (1) 2025.02.05
LLM 기반 Application 연구  (0) 2025.02.05
LLM 기반 Evaluation-Centric NLP 연구  (2) 2025.02.04