간단한 전이학습 방법
- Instruction Tuning
- 목표 언어에 대한 Instruction Tuning만 진행하는 방법
- 사전학습된 LLM에 목표 언어에 대한 Instruction Tuning을 진행하는 방법
- 소스 언어로 학습된 모델이 목표 언어에 대한 Instruction Tuning 데이터를 학습하여 목표 언어에 대한 이해를 높이는 방법
- 조건: 사전학습을 진행할 LLM이 목표 언어 대해 낮은 OOV (Out of vocabulary) rate의 vocabulary를 가지고 있어야 하며, 소스 언어와 목표 언어의 유사도가 높아야 함
- 장점: Instruction Data 만으로 손쉽게 학습 가능
- 단점: 성능이 낮을 수 있음 - Further Pre-training
- 목표 언어에 대해 사전학습을 우선 진행하는 방법
- 기존 사전학습된 LLM을 다른 언어로 추가 사전학습 하는 방법
- 대부분의 LLM은 영어에 대해 사전학습 되어 있음
- 목표 언어에 대해 추가적인 사전학습을 진행하여, 목표 언어에 대한 이해를 높이는 방법
- 추가 사전학습된 LLM에 Instruction Tuning을 진행하여 다른 언어에 대한 사전학습 모델을 획득
- 조건: 사전학습을 진행할 LLM이 목표 언어 대해 낮은 OOV의 vocabulary를 가지고 있어야 함
- 장점: 목표 언어에 대한 지식을 풍부히 갖춘 LLM을 얻을 수 있음
- 단점: 사전학습 코퍼스 구축, 사전학습 등의 자원 소모 심함 - Vocabulary Extension
- 목표 언어에 대한 토큰을 Vocabulary에 추가하는 방법
- 기존 Vocabulary에 목표 언어에 대한 토큰들을 추가하여 확장된 임베딩을 사용하는 방법
- 대부분의 LLM의 Vocabulary는 영어에 대해 학습된 Subword Embeddings을 가지고 있음
- 심지어, 몇몇 LLM은 특정 언어에 대해 OOV Rate가 굉장히 높음
- 모델에 대한 언어의 이해도를 높이기 위해서, 목표 언어에 대한 토큰들을 추가
- 새로운 토큰 임베딩에 대한 학습을 위해, 추가적으로 Further Pre-training 혹은 Instruction Tuning을 진행
- 조건: 무작위로 초기화된 토큰 임베딩을 학습하기 위하여 추가적인 Further Pre-training 혹은 Instruction Tuning이 필요
- 장점: 목표 언어에 대한 토큰 임베딩 구축으로, 모델의 능력 향상을 기대할 수 있음
- 단점: 목표 언어에 대해 잘 구축된 Vocabulary 필요, 무작위로 초기화된 Vocabulary 학습을 위해 추가적인 학습 시간 소요
모델 및 임베딩 학습 기반 방법
- Adapting Monolingual Model (AMM)
- 목표 언어의 임베딩 레이어로 변환 후 임베딩만 Further Pre-training을 진행 - Cross-Lingual Post-Training (XPT)
- Phase 1 - 기존 소스 모델로 부터 언어적 차이를 이해하기 위한 학습 과정
- 사전학습된 모델에 ITL (Implicit Translation Layer) 삽입 - 언어적 차이를 학습하는 레이어
- 소스 언어의 임베딩을 목표 언어의 임베딩으로 교체
- ITL 및 교체된 임베딩만 Further Pre-training 진행 (기존 모델의 레이어는 학습하지 않음)
- Phase 2 - 기존 소스 모델을 완전한 목표 언어 모델로 전이하기 위한 학습 과정
- 기존 모델을 포함한, ITL과 임베딩레이어 모두 목표 언어에 대해 Further Pre-training 수행
- 이 과정에서 소스 언어 모델은 완전한 목표 언어 모델로 전이 - GPT-recycle
- 토큰 임베딩 초기화를 AMM과 같이 무작위 초기화를 진행하는 것이 아닌, 잘 학습된 다른 언어모델의 임베딩을 사용하는 방법
- 단, 임베딩 레이어의 차원이 맞지 않을 경우 least-squares regression로 차원 확장
임베딩 정렬 기반 학습 전략
- 토큰 임베딩을 무작위로 목표 언어에 대해 초기화하여 사용하는 대신, 소스 언어와 목표 언어에 대한 토큰 임베딩을 유사도 기반으로 계산하여 초기 정렬 후에 학습하는 방법
- WECHSEL
- 기존 사전학습된 서브워드 임베딩과 목표 언어의 서브워드 임베딩을 계산하여 임베딩을 초기화 한 후에 Further Pre-taining을 진행
- 1) 모델 파라미터 복사 및 토크나이저 교체: 영어 모델의 내부(임베딩이 아닌) 파라미터를 복사하고, 토크나이저를 목표 언어의 토크나이저로 교체
- 2) 양방향 단어 임베딩 사용: 영어와 목표 언어를 포함하는 다국어 단어 임베딩을 사용하여, 영어 토큰과 의미적으로 유사한 목표 언어 토큰의 임베딩을 초기화
- 3) 서브워드 임베딩 계산: 서브워드에 등장하는 n-gram의 임베딩을 합산하여 Subword 들의 임베딩을 계산
- 4) 서브워드 유사성 계산: 계산된 목표 언어의 임베딩을 바탕으로, 소스 언어와 목표 언어의 서브워드 임베딩 간 유사성을 계산
- 5) 유사성 기반으로 목표 언어 서브워드 임베딩 초기화: 계산된 유사성을 기반으로, 가장 유사한 k개의 소스 언어 임베딩의 가중 평균을 사용하여 목표 언어의 서브워드 임베딩을 초기화
- 6) Further Pre-training: 초기화된 모델을 대상 언어 데이터셋에서 추가로 학습 (Freeze 없이 전체 학습)
Adapter 기반 학습 방법
- Adapter 기반 학습 방법
- LoRA, QLoRA, Prefix-tuning, P-Tuning 등의 Adapter 기반의 학습 방법은 모두 특정 Parameter만 학습
- 이 방법들은 기존 모델의 언어적 특징을 유지하기 때문에 Cross-lingual 학습 방법으로 취급됨
'Study > 자연언어처리 NLP' 카테고리의 다른 글
Multimodal LLM (0) | 2025.02.05 |
---|---|
Multilingual LLM (2) | 2025.02.05 |
LLM 기반 Prompt Engineering 연구 (1) | 2025.02.05 |
LLM 기반 Application 연구 (0) | 2025.02.05 |
LLM 기반 Evaluation-Centric NLP 연구 (2) | 2025.02.04 |