Multilingual Pre-trained Models
- Multilingual PLMs
- 초기 사전학습 모델에서 다국어 모델을 만드려는 노력은 only-encoder 혹은 encoder-decoder에서 주로 이루어짐 • only-encoder 모델에서는 주로 “동일한 공간 (space)에 언어적 정보를 매핑”을 위함
- 언어적 자원이 없는 “소수 언어”에서 적은 양의 데이터로 좋은 분류 성능을 내기 위함 • encoder-decoder 모델에서는 주로 “번역”을 위해서 사전학습 진행
- 언어적 자원이 없는 “소수 언어”에서의 번역 모델을 만들기 위함 - mBERT
- Encoder-only 모델
- BERT의 다국어 버전으로, 102개 언어의 위키피디아(wikipedia.org) 데이터를 사용하여 학습
- MLM (Masked Language Modeling), NSP (Next Sentence Prediction) 을 사용하여 학습
- Multilingual PLM의 초기 단계로 언어 간의 사상을 위한 사전학습 기술을 사용하지 않음 - XLM (Cross-lingual Language Model)
- Encoder-only 모델
- mBERT 동일한 MLM에 더하여, Language embeddings을 사용하여 Translation Language Modeling (TLM) 수행
- 지도학습으로 여러 언어에 대한 직접적인 매핑을 진행한 첫 논문
- XLM-17 (17개 언어), XLM-100 (100개 언어) 두 모델 공개
- 단순 MLM에 더하여 TLM을 multi-task learning 시에 높은 성능 향상
- Nepali를 단독으로 학습하는 것 보다, English와 Hindi와 같이 사용했을 때 PPL이 가장 낮음 → TLM이 언어의 중립적 특징을 학습함
- 언어적 자원이 없는 소수언어 (low-resource language) 에 대해서도 다른 언어의 힘을 빌려 높은 성능을 얻을 수 있음을 밝힘 - MASS (Masked Sequence to Sequence Pre-training)
- BERT와 Seq2Seq 학습 사이의 간극을 메우는 접근법인 Masked Sequence to Sequence Pre-training를 적용
- 문장의 연속된 일부분을 마스킹하고, 해당 부분을 예측하기 위해 나머지 부분을 사용
- 모델이 마스킹된 부분을 복원하는데 집중하여 문맥 이해를 향상시키고, 시퀀스 생성 능력을 강화하기 위함
- BERT의 MLM을 Seq2Seq으로 확장
1) 일정 길이의 연속적인 토큰 시퀀스가 입력 문장에서 마스킹된 후 인코더의 입력됨
2) 디코더에서 마스킹된 부분을 나머지 문장 정보를 바탕으로 예측하도록 사전학습 - mBART
- Encoder-decoder Model
- BART와 동일하게 Denoising Auto-Encoding으로 사전학습
- mBART-25 (25개 언어)와 mBART-50 (50개 언어)로 사전학습된 모델 공개
- 기존 공개된 XLM, MASS 보다 더 높은 번역 성능
- 번역의 데이터 수가 적을 수록 일반적으로 높은 성능을 보임 (mBART02 > mBART25)
- 많은 언어로 학습된 mBART가 Unseen 언어에 대한 이해도가 높음
- 데이터가 많은 언어의 힘을 빌려서, 소수 언어에 대한 이해도 증가 - mT5
- Encoder-decoder 모델, T5와 동일한 Text-to-Text 프레임워크
- mBERT, XLM, mBART와 다르게 최대 13B의 모델 사이즈로 대규모 언어모델에 가장 근접
- 101개의 언어 학습
- 모델의 크기가 늘어날 수록, 다국어 언어모델에서도 성능 향상이 큼을 확인
- mT5-XXL은 거의 모든 Task에서 SoTA 달성
- 이전 대부분은 단일 모델 (monolingual model)의 성능이 좋았음
- 모델과 데이터의 사이즈가커질 수록 그 격차는 줄어듦
⇒ 충분한 데이터와 모델 크기로 언어의 공통적 특성을 배울 수 있음을 암시
Multilingual Large Language Models - 다국어 코퍼스로 학습된 LLMs
- Multilingual LLM의 중요성
- LLM의 등장으로다양한 연구 및 기술 개발, 글로벌화 추진
- 하지만, 대부분의 LLM은 소수의 주요 언어에 집중
⇒ 여러 언어에 대한 지원이 부족하여, 다양한 언어를 사용하는 사람들이 기술 접근에 어려움을 겪음 (비영어권 나라는 LLM의 불모지)
- 많은 LLM이 다국어 코퍼스를 사용하고 있으나, 언어에 집중된 데이터로 인해 다른 언어로 사용이 불가 - PaLM (Pathways Language Model, Google)
- BARD의 기반 LLM으로 100개 이상의 언어에 걸쳐 다국어 텍스트를 학습
- 540-billion parameter & 780 billion tokens of high quality text 사용
=> 고품질의 웹 문서, 책, 위키피디아, 대화문, 깃헙 코드 등으로 구성된 영어와 다국어 데이터를 조합하여 학습
=> 코드에서 중요한 공백을 포함시키고, 어휘집에 없는 유니코드는 바이트 단위로 나누고, 숫자를 각 자리 수마다 각각의 토큰으로 나누는 “무손실(lossless)” 어휘집을 구축
- 540B의 모델 크기
- Decoder-only 구조
- 78%의 English 데이터, 22%의 Non-English 데이터
- 수 많은 언어에 대해 학습되었으나, English, German, French, Spanish에 주로 사용 가능
- 다양한 자연언어처리 태스크(BIG-bench)에서 높은 성능
- 특히 코드는 50배 적은 파이썬 코드로 학습하였지만 OpenAI의 Codex 120B와 동등한 수준의 성능 - LLaMA (Large Language Model Meta AI, Meta)
- 7B, 13B, 33B, 65B 모델 공개
- 13B만으로도, GPT-3와 비슷한 성능
- 사전학습만 진행했으며, SFT와 Human Preference Tuning 진행 X
- 20개의 언어로 사전학습 수행 (언어별 데이터 분포 측정 X) - LLaMA2 (Large Language Model Meta AI 2, Meta)
- 7B, 13B, 70B 모델 공개
- LLaMA 1에 비교하여 40% 더 많은 학습 데이터 사용
- 사전학습, SFT와 RLHF를 모두 수행하여 LLM 구성
- 90%의 English 및 10%의 Non-English 데이터 사용 - Alpaca (Stanford)
- 7B, 13B 모델 공개
- LLaMA 1을 사용하여 Instruction Tuning을 진행 비교하여 40% 더 많은 학습 데이터 사용
- 사전학습, SFT를 수행하여 LLM 구성 (Human Preference Tuning 진행 X)
- 20개의 언어로 학습된 LLaMA 모델을 사용했으나, SFT 시에 영어로만 학습 - Falcon
- 7B, 40B, 180B 모델 공개
- Decoder-only 구조
- 사전학습, SFT를 수행하여 LLM 구성 (Human Preference Tuning 진행 X)
- English, German, Spanish, French 4개의 언어에 익숙
- Italian, Portuguese, Polish, Dutch, Romanian, Czech, Swedish에 미숙하지만 사용 가능 - RedPajama
- 완전 개방형 LLM을 만들기 위한 데이터 프로젝트
- v1 및 v2 데이터 공개
- v2 데이터의 경우 English, German, French, Italian, Spanish로 구성
- LLaMA에서 사용된 데이터 제작 규칙에 맞도록 데이터 구성
Multilingual Large Language Models - 다국어 답변이 뛰어난 LLMs
- 다국어 답변이 뛰어난 Multilingual LLM
- 대부분의 LLM은 영어권 혹은 중국어, 인도어에서만 사용 가능
- LLaMA-2 70B 모델에 한국어로 답변을 원해도 영어로 답변하며, 이상한 답변 출력
- 그외에 ‘한국어’, ‘일본어’ 및 10개 언어 이상에도 무난하게 잘 사용할 수 있는 Multilingual LLM 공개 - PolyLM
- 다국어 지원하는 오픈 소스 대규모 언어 모델 • 알리바바 그룹의 DAMO 아카데미에서 발표
- 18개 언어로 된 웹 텍스트 데이터셋을 모아 모델을 학습
- 여러 Multilingual Task에서 'LLaMA 1', 'BLOOM' 등 다른 오픈소스 LLM보다 높은 성능
- PolyLM MultiAlpaca: A MULTILINGUAL SELF-INSTRUCTION DATA
- ChatGPT 기반의 응답을 생성. 지속적인 필터링 프로세스를 통해 다국어 SFT 데이터셋을 제작
- NLU, NLG, MT, QA의 Task에 대해 평가
- 여러 언어에 대해 다른 다국어 모델보다 더 좋은 성능 - BLOOM
- Decoder-only 구조
- 최대 176B 파라미터, 59개의 언어로 학습
- 30%의 English, 70%의 Non-English
- 오픈소스로 공개
- 이전 대부분 LLM은 75% 이상이 English 었다면, BLOOM은 70%를 Non-English 데이터로 사용 - PaLM2 (Pathways Language Model 2, Google)
- 340B (추정)
- Decoder-only 구조 (추정)
- 100개 이상의 언어 지원
- 다양한 언어의 뉘앙스를 이해
- Google의 BARD 등 핵심 기술에 사용됨
- 100개 이상의 언어로 사전학습 : 다양한 언어 (한국어 포함)에서 높은 성능 - GPT-3.5 / GPT-4 (OpenAI)
- 모델 크기: 알 수 없음
- 모델 구조: Decoder-only 구조 (추정)
- 소수언어를 포함한 대부분의 언어에서 가장 좋은 성능
- GPT-4는 모든 LLM을 통틀어서 현재 가장 좋은 모델로 뽑힘
Multilingual LLM Benchmark
- Multilingual LLM Benchmark
- 대부분의 LLM들의 성능 평가는 “영어”에서만 진행되었고, 이는 다국어 능력에 대해 평가하는 것에 한계를 의미
- 벤치마크의 부재로, 이전 Multilingual LLMs들의 성능 평가는 “번역”과 같은 한정적인 다국어 성능을 보고
- LLM 등장 이후로, 생성형 모델에서 다국어 생성 능력을 평가하는 다양한 벤치마크 등장 - LASER(2019)
- Language-Agnostic SEntence Representations
- 최초의 대량의 multi-language 연구
- Multi-language의 단어들을 하나의 space에 embedding
- 50 languages 제안, 추후에 200 languages로 update (2022년) - LASER2(2020)
- 동일한 의미를 가진 문장의 embedding을 자동으로 pairing하는 embedding 생성
- 100 languages - Flores, 2019
- English와 low-resource language간의 machine translation dataset
- 2 languages(Nepali, Sinhala)
- 이후 Flores 101, Flores 200 등 등장 - Flores-101, 2021
- 최초의 many-to-many evaluation dataset
- Multilingual translation dataset
- 101 languages - Flores-200, 2022
- Flores-101을 200 languages 로 확장한 dataset - WikiMatrix, 2019
- Wikipedia로부터 추출한 135M parallel sentences
- 85 languages - CCMatrix, 2020
- 웹 기반으로 생성된 양질의 dataset
- 4.5B parallel sentences
- 576 language pair - NLLB 200, 2022
- No Language Left Behind (NLLB)
- 200 languages를 지원하는 language model과 dataset 공개
- 다양한 low resource language을 포함
- High resource language와 low resource language간의 성능 격차를 줄이기 위함
- Low resource language의 번역 성능 상승을 통한 정보 접근성 상승 및 디지털 격차 해소를 꾀함 - MEGA (Multilingual Evaluation of Generative AI)
- 70개의 언어에 대해 16개 데이터 Benchmark 구성
- Commonsense Reasoning, NLI, QA, Sequence Labeling, Natural Language Generation, Responsible AI 등 여러 범위의 LLM 능력 평가
- 실제 LLM 사용과 동일하게 Few-shot 셋팅으로 평가를 진행
- GPT-4 및 BLOOMZ 모델이 높은 성능 - Open Multilingual LLM Evaluation Leaderboard
- 다음의 4개의 벤치마크에 대해 평가 (29개 언어)
- AI2 Reasoning Challenge (25-shot)
- HellaSwag (10-shot)
- MMLU (5-shot)
- TruthfulQA (0-shot)
'Study > 자연언어처리 NLP' 카테고리의 다른 글
Cross Lingual LLM (0) | 2025.02.05 |
---|---|
Multimodal LLM (0) | 2025.02.05 |
LLM 기반 Prompt Engineering 연구 (1) | 2025.02.05 |
LLM 기반 Application 연구 (0) | 2025.02.05 |
LLM 기반 Evaluation-Centric NLP 연구 (2) | 2025.02.04 |