Cross Lingual LLM

Study/자연언어처리 NLP

Cross Lingual LLM

김 도경 2025. 2. 5. 12:48

간단한 전이학습 방법

Instruction Tuning
- 목표 언어에 대한 Instruction Tuning만 진행하는 방법
- 사전학습된 LLM에 목표 언어에 대한 Instruction Tuning을 진행하는 방법
- 소스 언어로 학습된 모델이 목표 언어에 대한 Instruction Tuning 데이터를 학습하여 목표 언어에 대한 이해를 높이는 방법

- 조건: 사전학습을 진행할 LLM이 목표 언어 대해 낮은 OOV (Out of vocabulary) rate의 vocabulary를 가지고 있어야 하며, 소스 언어와 목표 언어의 유사도가 높아야 함
- 장점: Instruction Data 만으로 손쉽게 학습 가능
- 단점: 성능이 낮을 수 있음
Further Pre-training
- 목표 언어에 대해 사전학습을 우선 진행하는 방법
- 기존 사전학습된 LLM을 다른 언어로 추가 사전학습 하는 방법

- 대부분의 LLM은 영어에 대해 사전학습 되어 있음
- 목표 언어에 대해 추가적인 사전학습을 진행하여, 목표 언어에 대한 이해를 높이는 방법
- 추가 사전학습된 LLM에 Instruction Tuning을 진행하여 다른 언어에 대한 사전학습 모델을 획득

- 조건: 사전학습을 진행할 LLM이 목표 언어 대해 낮은 OOV의 vocabulary를 가지고 있어야 함
- 장점: 목표 언어에 대한 지식을 풍부히 갖춘 LLM을 얻을 수 있음
- 단점: 사전학습 코퍼스 구축, 사전학습 등의 자원 소모 심함
Vocabulary Extension
- 목표 언어에 대한 토큰을 Vocabulary에 추가하는 방법
- 기존 Vocabulary에 목표 언어에 대한 토큰들을 추가하여 확장된 임베딩을 사용하는 방법

- 대부분의 LLM의 Vocabulary는 영어에 대해 학습된 Subword Embeddings을 가지고 있음
- 심지어, 몇몇 LLM은 특정 언어에 대해 OOV Rate가 굉장히 높음
- 모델에 대한 언어의 이해도를 높이기 위해서, 목표 언어에 대한 토큰들을 추가
- 새로운 토큰 임베딩에 대한 학습을 위해, 추가적으로 Further Pre-training 혹은 Instruction Tuning을 진행

- 조건: 무작위로 초기화된 토큰 임베딩을 학습하기 위하여 추가적인 Further Pre-training 혹은 Instruction Tuning이 필요
- 장점: 목표 언어에 대한 토큰 임베딩 구축으로, 모델의 능력 향상을 기대할 수 있음
- 단점: 목표 언어에 대해 잘 구축된 Vocabulary 필요, 무작위로 초기화된 Vocabulary 학습을 위해 추가적인 학습 시간 소요

모델 및 임베딩 학습 기반 방법

Adapting Monolingual Model (AMM)
- 목표 언어의 임베딩 레이어로 변환 후 임베딩만 Further Pre-training을 진행
Cross-Lingual Post-Training (XPT)
- Phase 1 - 기존 소스 모델로 부터 언어적 차이를 이해하기 위한 학습 과정
- 사전학습된 모델에 ITL (Implicit Translation Layer) 삽입 - 언어적 차이를 학습하는 레이어
- 소스 언어의 임베딩을 목표 언어의 임베딩으로 교체
- ITL 및 교체된 임베딩만 Further Pre-training 진행 (기존 모델의 레이어는 학습하지 않음)
- Phase 2 - 기존 소스 모델을 완전한 목표 언어 모델로 전이하기 위한 학습 과정
- 기존 모델을 포함한, ITL과 임베딩레이어 모두 목표 언어에 대해 Further Pre-training 수행
- 이 과정에서 소스 언어 모델은 완전한 목표 언어 모델로 전이
GPT-recycle
- 토큰 임베딩 초기화를 AMM과 같이 무작위 초기화를 진행하는 것이 아닌, 잘 학습된 다른 언어모델의 임베딩을 사용하는 방법
- 단, 임베딩 레이어의 차원이 맞지 않을 경우 least-squares regression로 차원 확장

임베딩 정렬 기반 학습 전략

- 토큰 임베딩을 무작위로 목표 언어에 대해 초기화하여 사용하는 대신, 소스 언어와 목표 언어에 대한 토큰 임베딩을 유사도 기반으로 계산하여 초기 정렬 후에 학습하는 방법

WECHSEL
- 기존 사전학습된 서브워드 임베딩과 목표 언어의 서브워드 임베딩을 계산하여 임베딩을 초기화 한 후에 Further Pre-taining을 진행

- 1) 모델 파라미터 복사 및 토크나이저 교체: 영어 모델의 내부(임베딩이 아닌) 파라미터를 복사하고, 토크나이저를 목표 언어의 토크나이저로 교체
- 2) 양방향 단어 임베딩 사용: 영어와 목표 언어를 포함하는 다국어 단어 임베딩을 사용하여, 영어 토큰과 의미적으로 유사한 목표 언어 토큰의 임베딩을 초기화
- 3) 서브워드 임베딩 계산: 서브워드에 등장하는 n-gram의 임베딩을 합산하여 Subword 들의 임베딩을 계산
- 4) 서브워드 유사성 계산: 계산된 목표 언어의 임베딩을 바탕으로, 소스 언어와 목표 언어의 서브워드 임베딩 간 유사성을 계산
- 5) 유사성 기반으로 목표 언어 서브워드 임베딩 초기화: 계산된 유사성을 기반으로, 가장 유사한 k개의 소스 언어 임베딩의 가중 평균을 사용하여 목표 언어의 서브워드 임베딩을 초기화
- 6) Further Pre-training: 초기화된 모델을 대상 언어 데이터셋에서 추가로 학습 (Freeze 없이 전체 학습)

Adapter 기반 학습 방법

Adapter 기반 학습 방법
- LoRA, QLoRA, Prefix-tuning, P-Tuning 등의 Adapter 기반의 학습 방법은 모두 특정 Parameter만 학습
- 이 방법들은 기존 모델의 언어적 특징을 유지하기 때문에 Cross-lingual 학습 방법으로 취급됨

저작자표시 비영리 변경금지 (새창열림)

'Study > 자연언어처리 NLP' 카테고리의 다른 글

Multimodal LLM (0)	2025.02.05
Multilingual LLM (2)	2025.02.05
LLM 기반 Prompt Engineering 연구 (1)	2025.02.05
LLM 기반 Application 연구 (0)	2025.02.05
LLM 기반 Evaluation-Centric NLP 연구 (2)	2025.02.04

현재글Cross Lingual LLM

개발 성장 노트

Upstage AI Lab 5기와 코딩관련 공부에 대해서 기록을 하기 위한 블로그입니다.

머신러닝, 패스트캠퍼스AI부트캠프, ai 부트캠프, 자연언어처리, LLM, 업스테이지패스트캠프, 패스트캠퍼스, 국비지원취업, cv, 인공지능, 패스트 캠퍼스, UpstageAILab, 업스테이지패스트캠퍼스, 경진대회, 딥러닝, 국비지원, 패스트캠퍼스업스테이지부트캠프, 패스트캠프업스테이지에이아이랩, 패스트캠퍼스업스테이지에이아이랩, 부트캠프,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

개발 성장 노트

Cross Lingual LLM

'Study > 자연언어처리 NLP' 카테고리의 다른 글

'Study/자연언어처리 NLP'의 다른글

티스토리툴바

Cross Lingual LLM

'Study > 자연언어처리 NLP' 카테고리의 다른 글

'Study/자연언어처리 NLP'의 다른글

관련글

티스토리툴바