Multilingual LLM

Study/자연언어처리 NLP

Multilingual LLM

김 도경 2025. 2. 5. 12:20

Multilingual Pre-trained Models

Multilingual PLMs
- 초기 사전학습 모델에서 다국어 모델을 만드려는 노력은 only-encoder 혹은 encoder-decoder에서 주로 이루어짐 • only-encoder 모델에서는 주로 “동일한 공간 (space)에 언어적 정보를 매핑”을 위함
- 언어적 자원이 없는 “소수 언어”에서 적은 양의 데이터로 좋은 분류 성능을 내기 위함 • encoder-decoder 모델에서는 주로 “번역”을 위해서 사전학습 진행
- 언어적 자원이 없는 “소수 언어”에서의 번역 모델을 만들기 위함
mBERT
- Encoder-only 모델
- BERT의 다국어 버전으로, 102개 언어의 위키피디아(wikipedia.org) 데이터를 사용하여 학습
- MLM (Masked Language Modeling), NSP (Next Sentence Prediction) 을 사용하여 학습
- Multilingual PLM의 초기 단계로 언어 간의 사상을 위한 사전학습 기술을 사용하지 않음
XLM (Cross-lingual Language Model)
- Encoder-only 모델
- mBERT 동일한 MLM에 더하여, Language embeddings을 사용하여 Translation Language Modeling (TLM) 수행
- 지도학습으로 여러 언어에 대한 직접적인 매핑을 진행한 첫 논문
- XLM-17 (17개 언어), XLM-100 (100개 언어) 두 모델 공개
- 단순 MLM에 더하여 TLM을 multi-task learning 시에 높은 성능 향상

- Nepali를 단독으로 학습하는 것 보다, English와 Hindi와 같이 사용했을 때 PPL이 가장 낮음 → TLM이 언어의 중립적 특징을 학습함
- 언어적 자원이 없는 소수언어 (low-resource language) 에 대해서도 다른 언어의 힘을 빌려 높은 성능을 얻을 수 있음을 밝힘
MASS (Masked Sequence to Sequence Pre-training)
- BERT와 Seq2Seq 학습 사이의 간극을 메우는 접근법인 Masked Sequence to Sequence Pre-training를 적용
- 문장의 연속된 일부분을 마스킹하고, 해당 부분을 예측하기 위해 나머지 부분을 사용
- 모델이 마스킹된 부분을 복원하는데 집중하여 문맥 이해를 향상시키고, 시퀀스 생성 능력을 강화하기 위함

- BERT의 MLM을 Seq2Seq으로 확장
1) 일정 길이의 연속적인 토큰 시퀀스가 입력 문장에서 마스킹된 후 인코더의 입력됨
2) 디코더에서 마스킹된 부분을 나머지 문장 정보를 바탕으로 예측하도록 사전학습
mBART
- Encoder-decoder Model
- BART와 동일하게 Denoising Auto-Encoding으로 사전학습
- mBART-25 (25개 언어)와 mBART-50 (50개 언어)로 사전학습된 모델 공개
- 기존 공개된 XLM, MASS 보다 더 높은 번역 성능
- 번역의 데이터 수가 적을 수록 일반적으로 높은 성능을 보임 (mBART02 > mBART25)
- 많은 언어로 학습된 mBART가 Unseen 언어에 대한 이해도가 높음
- 데이터가 많은 언어의 힘을 빌려서, 소수 언어에 대한 이해도 증가
mT5
- Encoder-decoder 모델, T5와 동일한 Text-to-Text 프레임워크
- mBERT, XLM, mBART와 다르게 최대 13B의 모델 사이즈로 대규모 언어모델에 가장 근접
- 101개의 언어 학습
- 모델의 크기가 늘어날 수록, 다국어 언어모델에서도 성능 향상이 큼을 확인
- mT5-XXL은 거의 모든 Task에서 SoTA 달성

- 이전 대부분은 단일 모델 (monolingual model)의 성능이 좋았음
- 모델과 데이터의 사이즈가커질 수록 그 격차는 줄어듦
⇒ 충분한 데이터와 모델 크기로 언어의 공통적 특성을 배울 수 있음을 암시

Multilingual Large Language Models - 다국어 코퍼스로 학습된 LLMs

Multilingual LLM의 중요성
- LLM의 등장으로다양한 연구 및 기술 개발, 글로벌화 추진
- 하지만, 대부분의 LLM은 소수의 주요 언어에 집중
⇒ 여러 언어에 대한 지원이 부족하여, 다양한 언어를 사용하는 사람들이 기술 접근에 어려움을 겪음 (비영어권 나라는 LLM의 불모지)
- 많은 LLM이 다국어 코퍼스를 사용하고 있으나, 언어에 집중된 데이터로 인해 다른 언어로 사용이 불가
PaLM (Pathways Language Model, Google)
- BARD의 기반 LLM으로 100개 이상의 언어에 걸쳐 다국어 텍스트를 학습
- 540-billion parameter & 780 billion tokens of high quality text 사용
=> 고품질의 웹 문서, 책, 위키피디아, 대화문, 깃헙 코드 등으로 구성된 영어와 다국어 데이터를 조합하여 학습
=> 코드에서 중요한 공백을 포함시키고, 어휘집에 없는 유니코드는 바이트 단위로 나누고, 숫자를 각 자리 수마다 각각의 토큰으로 나누는 “무손실(lossless)” 어휘집을 구축

- 540B의 모델 크기
- Decoder-only 구조
- 78%의 English 데이터, 22%의 Non-English 데이터
- 수 많은 언어에 대해 학습되었으나, English, German, French, Spanish에 주로 사용 가능

- 다양한 자연언어처리 태스크(BIG-bench)에서 높은 성능
- 특히 코드는 50배 적은 파이썬 코드로 학습하였지만 OpenAI의 Codex 120B와 동등한 수준의 성능
LLaMA (Large Language Model Meta AI, Meta)
- 7B, 13B, 33B, 65B 모델 공개
- 13B만으로도, GPT-3와 비슷한 성능
- 사전학습만 진행했으며, SFT와 Human Preference Tuning 진행 X
- 20개의 언어로 사전학습 수행 (언어별 데이터 분포 측정 X)
LLaMA2 (Large Language Model Meta AI 2, Meta)
- 7B, 13B, 70B 모델 공개
- LLaMA 1에 비교하여 40% 더 많은 학습 데이터 사용
- 사전학습, SFT와 RLHF를 모두 수행하여 LLM 구성
- 90%의 English 및 10%의 Non-English 데이터 사용
Alpaca (Stanford)
- 7B, 13B 모델 공개
- LLaMA 1을 사용하여 Instruction Tuning을 진행 비교하여 40% 더 많은 학습 데이터 사용
- 사전학습, SFT를 수행하여 LLM 구성 (Human Preference Tuning 진행 X)
- 20개의 언어로 학습된 LLaMA 모델을 사용했으나, SFT 시에 영어로만 학습
Falcon
- 7B, 40B, 180B 모델 공개
- Decoder-only 구조
- 사전학습, SFT를 수행하여 LLM 구성 (Human Preference Tuning 진행 X)
- English, German, Spanish, French 4개의 언어에 익숙
- Italian, Portuguese, Polish, Dutch, Romanian, Czech, Swedish에 미숙하지만 사용 가능
RedPajama
- 완전 개방형 LLM을 만들기 위한 데이터 프로젝트
- v1 및 v2 데이터 공개
- v2 데이터의 경우 English, German, French, Italian, Spanish로 구성
- LLaMA에서 사용된 데이터 제작 규칙에 맞도록 데이터 구성

Multilingual Large Language Models - 다국어 답변이 뛰어난 LLMs

다국어 답변이 뛰어난 Multilingual LLM
- 대부분의 LLM은 영어권 혹은 중국어, 인도어에서만 사용 가능
- LLaMA-2 70B 모델에 한국어로 답변을 원해도 영어로 답변하며, 이상한 답변 출력
- 그외에 ‘한국어’, ‘일본어’ 및 10개 언어 이상에도 무난하게 잘 사용할 수 있는 Multilingual LLM 공개
PolyLM
- 다국어 지원하는 오픈 소스 대규모 언어 모델 • 알리바바 그룹의 DAMO 아카데미에서 발표
- 18개 언어로 된 웹 텍스트 데이터셋을 모아 모델을 학습
- 여러 Multilingual Task에서 'LLaMA 1', 'BLOOM' 등 다른 오픈소스 LLM보다 높은 성능
- PolyLM MultiAlpaca: A MULTILINGUAL SELF-INSTRUCTION DATA
- ChatGPT 기반의 응답을 생성. 지속적인 필터링 프로세스를 통해 다국어 SFT 데이터셋을 제작

- NLU, NLG, MT, QA의 Task에 대해 평가
- 여러 언어에 대해 다른 다국어 모델보다 더 좋은 성능
BLOOM
- Decoder-only 구조
- 최대 176B 파라미터, 59개의 언어로 학습
- 30%의 English, 70%의 Non-English
- 오픈소스로 공개
- 이전 대부분 LLM은 75% 이상이 English 었다면, BLOOM은 70%를 Non-English 데이터로 사용
PaLM2 (Pathways Language Model 2, Google)
- 340B (추정)
- Decoder-only 구조 (추정)
- 100개 이상의 언어 지원
- 다양한 언어의 뉘앙스를 이해
- Google의 BARD 등 핵심 기술에 사용됨
- 100개 이상의 언어로 사전학습 : 다양한 언어 (한국어 포함)에서 높은 성능
GPT-3.5 / GPT-4 (OpenAI)
- 모델 크기: 알 수 없음
- 모델 구조: Decoder-only 구조 (추정)
- 소수언어를 포함한 대부분의 언어에서 가장 좋은 성능
- GPT-4는 모든 LLM을 통틀어서 현재 가장 좋은 모델로 뽑힘

Multilingual LLM Benchmark

Multilingual LLM Benchmark
- 대부분의 LLM들의 성능 평가는 “영어”에서만 진행되었고, 이는 다국어 능력에 대해 평가하는 것에 한계를 의미
- 벤치마크의 부재로, 이전 Multilingual LLMs들의 성능 평가는 “번역”과 같은 한정적인 다국어 성능을 보고
- LLM 등장 이후로, 생성형 모델에서 다국어 생성 능력을 평가하는 다양한 벤치마크 등장
LASER(2019)
- Language-Agnostic SEntence Representations
- 최초의 대량의 multi-language 연구
- Multi-language의 단어들을 하나의 space에 embedding
- 50 languages 제안, 추후에 200 languages로 update (2022년)
LASER2(2020)
- 동일한 의미를 가진 문장의 embedding을 자동으로 pairing하는 embedding 생성
- 100 languages
Flores, 2019
- English와 low-resource language간의 machine translation dataset
- 2 languages(Nepali, Sinhala)
- 이후 Flores 101, Flores 200 등 등장
Flores-101, 2021
- 최초의 many-to-many evaluation dataset
- Multilingual translation dataset
- 101 languages
Flores-200, 2022
- Flores-101을 200 languages 로 확장한 dataset
WikiMatrix, 2019
- Wikipedia로부터 추출한 135M parallel sentences
- 85 languages
CCMatrix, 2020
- 웹 기반으로 생성된 양질의 dataset
- 4.5B parallel sentences
- 576 language pair
NLLB 200, 2022
- No Language Left Behind (NLLB)
- 200 languages를 지원하는 language model과 dataset 공개
- 다양한 low resource language을 포함
- High resource language와 low resource language간의 성능 격차를 줄이기 위함
- Low resource language의 번역 성능 상승을 통한 정보 접근성 상승 및 디지털 격차 해소를 꾀함
MEGA (Multilingual Evaluation of Generative AI)
- 70개의 언어에 대해 16개 데이터 Benchmark 구성
- Commonsense Reasoning, NLI, QA, Sequence Labeling, Natural Language Generation, Responsible AI 등 여러 범위의 LLM 능력 평가
- 실제 LLM 사용과 동일하게 Few-shot 셋팅으로 평가를 진행
- GPT-4 및 BLOOMZ 모델이 높은 성능
Open Multilingual LLM Evaluation Leaderboard
- 다음의 4개의 벤치마크에 대해 평가 (29개 언어)
- AI2 Reasoning Challenge (25-shot)
- HellaSwag (10-shot)
- MMLU (5-shot)
- TruthfulQA (0-shot)

저작자표시 비영리 변경금지

'Study > 자연언어처리 NLP' 카테고리의 다른 글

Cross Lingual LLM (0)	2025.02.05
Multimodal LLM (0)	2025.02.05
LLM 기반 Prompt Engineering 연구 (1)	2025.02.05
LLM 기반 Application 연구 (0)	2025.02.05
LLM 기반 Evaluation-Centric NLP 연구 (2)	2025.02.04

현재글Multilingual LLM

개발 성장 노트

Upstage AI Lab 5기와 코딩관련 공부에 대해서 기록을 하기 위한 블로그입니다.

머신러닝, 업스테이지패스트캠퍼스, 패스트캠퍼스업스테이지에이아이랩, 패스트캠퍼스, 국비지원, cv, 패스트캠퍼스업스테이지부트캠프, 패스트캠프업스테이지에이아이랩, 딥러닝, LLM, 부트캠프, 국비지원취업, 인공지능, UpstageAILab, 업스테이지패스트캠프, 패스트캠퍼스AI부트캠프, 패스트 캠퍼스, 자연언어처리, 경진대회, ai 부트캠프,

Today :
Yesterday :

개발 성장 노트

Multilingual LLM

'Study > 자연언어처리 NLP' 카테고리의 다른 글

'Study/자연언어처리 NLP'의 다른글

티스토리툴바

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Multilingual LLM

'Study > 자연언어처리 NLP' 카테고리의 다른 글

'Study/자연언어처리 NLP'의 다른글

관련글

티스토리툴바