Study/자연언어처리 NLP

Multilingual LLM

김 도경 2025. 2. 5. 12:20
Multilingual Pre-trained Models
  • Multilingual PLMs
    - 초기 사전학습 모델에서 다국어 모델을 만드려는 노력은 only-encoder 혹은 encoder-decoder에서 주로 이루어짐 • only-encoder 모델에서는 주로 “동일한 공간 (space)에 언어적 정보를 매핑”을 위함
    - 언어적 자원이 없는 “소수 언어”에서 적은 양의 데이터로 좋은 분류 성능을 내기 위함 • encoder-decoder 모델에서는 주로 “번역”을 위해서 사전학습 진행
    - 언어적 자원이 없는 “소수 언어”에서의 번역 모델을 만들기 위함

  • mBERT
    - Encoder-only 모델
    - BERT의 다국어 버전으로, 102개 언어의 위키피디아(wikipedia.org) 데이터를 사용하여 학습
    - MLM (Masked Language Modeling), NSP (Next Sentence Prediction) 을 사용하여 학습
    - Multilingual PLM의 초기 단계로 언어 간의 사상을 위한 사전학습 기술을 사용하지 않음

  • XLM (Cross-lingual Language Model)
    - Encoder-only 모델
    - mBERT 동일한 MLM에 더하여, Language embeddings을 사용하여 Translation Language Modeling (TLM) 수행
    - 지도학습으로 여러 언어에 대한 직접적인 매핑을 진행한 첫 논문
    - XLM-17 (17개 언어), XLM-100 (100개 언어) 두 모델 공개
    - 단순 MLM에 더하여 TLM을 multi-task learning 시에 높은 성능 향상

    - Nepali를 단독으로 학습하는 것 보다, English와 Hindi와 같이 사용했을 때 PPL이 가장 낮음 → TLM이 언어의 중립적 특징을 학습함
    - 언어적 자원이 없는 소수언어 (low-resource language) 에 대해서도 다른 언어의 힘을 빌려 높은 성능을 얻을 수 있음을 밝힘

  • MASS (Masked Sequence to Sequence Pre-training)
    - BERT와 Seq2Seq 학습 사이의 간극을 메우는 접근법인 Masked Sequence to Sequence Pre-training를 적용
    - 문장의 연속된 일부분을 마스킹하고, 해당 부분을 예측하기 위해 나머지 부분을 사용
    - 모델이 마스킹된 부분을 복원하는데 집중하여 문맥 이해를 향상시키고, 시퀀스 생성 능력을 강화하기 위함

    - BERT의 MLM을 Seq2Seq으로 확장
      1) 일정 길이의 연속적인 토큰 시퀀스가 입력 문장에서 마스킹된 후 인코더의 입력됨
      2) 디코더에서 마스킹된 부분을 나머지 문장 정보를 바탕으로 예측하도록 사전학습

  • mBART
    - Encoder-decoder Model
    - BART와 동일하게 Denoising Auto-Encoding으로 사전학습
    - mBART-25 (25개 언어)와 mBART-50 (50개 언어)로 사전학습된 모델 공개
    - 기존 공개된 XLM, MASS 보다 더 높은 번역 성능
    - 번역의 데이터 수가 적을 수록 일반적으로 높은 성능을 보임 (mBART02 > mBART25)
    - 많은 언어로 학습된 mBART가 Unseen 언어에 대한 이해도가 높음
    - 데이터가 많은 언어의 힘을 빌려서, 소수 언어에 대한 이해도 증가

  • mT5
    - Encoder-decoder 모델, T5와 동일한 Text-to-Text 프레임워크
    - mBERT, XLM, mBART와 다르게 최대 13B의 모델 사이즈로 대규모 언어모델에 가장 근접
    - 101개의 언어 학습
    - 모델의 크기가 늘어날 수록, 다국어 언어모델에서도 성능 향상이 큼을 확인
    - mT5-XXL은 거의 모든 Task에서 SoTA 달성

    - 이전 대부분은 단일 모델 (monolingual model)의 성능이 좋았음
    - 모델과 데이터의 사이즈가커질 수록 그 격차는 줄어듦
    ⇒ 충분한 데이터와 모델 크기로 언어의 공통적 특성을 배울 수 있음을 암시
Multilingual Large Language Models - 다국어 코퍼스로 학습된 LLMs
  • Multilingual LLM의 중요성
    - LLM의 등장으로다양한 연구 및 기술 개발, 글로벌화 추진
    - 하지만, 대부분의 LLM은 소수의 주요 언어에 집중
    ⇒ 여러 언어에 대한 지원이 부족하여, 다양한 언어를 사용하는 사람들이 기술 접근에 어려움을 겪음 (비영어권 나라는 LLM의 불모지)
    - 많은 LLM이 다국어 코퍼스를 사용하고 있으나, 언어에 집중된 데이터로 인해 다른 언어로 사용이 불가

  • PaLM (Pathways Language Model, Google)
    - BARD의 기반 LLM으로 100개 이상의 언어에 걸쳐 다국어 텍스트를 학습
    - 540-billion parameter & 780 billion tokens of high quality text 사용
    => 고품질의 웹 문서, 책, 위키피디아, 대화문, 깃헙 코드 등으로 구성된 영어와 다국어 데이터를 조합하여 학습
    => 코드에서 중요한 공백을 포함시키고, 어휘집에 없는 유니코드는 바이트 단위로 나누고, 숫자를 각 자리 수마다 각각의 토큰으로 나누는 “무손실(lossless)” 어휘집을 구축

    - 540B의 모델 크기
    - Decoder-only 구조
    - 78%의 English 데이터, 22%의 Non-English 데이터
    - 수 많은 언어에 대해 학습되었으나, English, German, French, Spanish에 주로 사용 가능

    - 다양한 자연언어처리 태스크(BIG-bench)에서 높은 성능
    - 특히 코드는 50배 적은 파이썬 코드로 학습하였지만 OpenAI의 Codex 120B와 동등한 수준의 성능

  • LLaMA (Large Language Model Meta AI, Meta)
    - 7B, 13B, 33B, 65B 모델 공개
    - 13B만으로도, GPT-3와 비슷한 성능 
    - 사전학습만 진행했으며, SFT와 Human Preference Tuning 진행 X
    - 20개의 언어로 사전학습 수행 (언어별 데이터 분포 측정 X)

  • LLaMA2 (Large Language Model Meta AI 2, Meta)
    - 7B, 13B, 70B 모델 공개
    - LLaMA 1에 비교하여 40% 더 많은 학습 데이터 사용
    - 사전학습, SFT와 RLHF를 모두 수행하여 LLM 구성
    - 90%의 English 및 10%의 Non-English 데이터 사용

  • Alpaca (Stanford)
    - 7B, 13B 모델 공개
    - LLaMA 1을 사용하여 Instruction Tuning을 진행 비교하여 40% 더 많은 학습 데이터 사용
    - 사전학습, SFT를 수행하여 LLM 구성 (Human Preference Tuning 진행 X)
    - 20개의 언어로 학습된 LLaMA 모델을 사용했으나, SFT 시에 영어로만 학습

  • Falcon 
    - 7B, 40B, 180B 모델 공개 
    - Decoder-only 구조
    - 사전학습, SFT를 수행하여 LLM 구성 (Human Preference Tuning 진행 X)
    - English, German, Spanish, French 4개의 언어에 익숙 
    - Italian, Portuguese, Polish, Dutch, Romanian, Czech, Swedish에 미숙하지만 사용 가능

  • RedPajama
    - 완전 개방형 LLM을 만들기 위한 데이터 프로젝트
    - v1 및 v2 데이터 공개
    - v2 데이터의 경우 English, German, French, Italian, Spanish로 구성
    - LLaMA에서 사용된 데이터 제작 규칙에 맞도록 데이터 구성
Multilingual Large Language Models - 다국어 답변이 뛰어난 LLMs
  • 다국어 답변이 뛰어난 Multilingual LLM
    - 대부분의 LLM은 영어권 혹은 중국어, 인도어에서만 사용 가능
    - LLaMA-2 70B 모델에 한국어로 답변을 원해도 영어로 답변하며, 이상한 답변 출력
    - 그외에 ‘한국어’, ‘일본어’ 및 10개 언어 이상에도 무난하게 잘 사용할 수 있는 Multilingual LLM 공개
  • PolyLM
    - 다국어 지원하는 오픈 소스 대규모 언어 모델 • 알리바바 그룹의 DAMO 아카데미에서 발표
    - 18개 언어로 된 웹 텍스트 데이터셋을 모아 모델을 학습
    - 여러 Multilingual Task에서 'LLaMA 1', 'BLOOM' 등 다른 오픈소스 LLM보다 높은 성능
    - PolyLM MultiAlpaca: A MULTILINGUAL SELF-INSTRUCTION DATA
    - ChatGPT 기반의 응답을 생성. 지속적인 필터링 프로세스를 통해 다국어 SFT 데이터셋을 제작

    - NLU, NLG, MT, QA의 Task에 대해 평가
    - 여러 언어에 대해 다른 다국어 모델보다 더 좋은 성능

  • BLOOM 
    - Decoder-only 구조
    - 최대 176B 파라미터, 59개의 언어로 학습
    - 30%의 English, 70%의 Non-English
    - 오픈소스로 공개
    - 이전 대부분 LLM은 75% 이상이 English 었다면, BLOOM은 70%를 Non-English 데이터로 사용

  • PaLM2 (Pathways Language Model 2, Google)
    - 340B (추정)
    - Decoder-only 구조 (추정)
    - 100개 이상의 언어 지원
    - 다양한 언어의 뉘앙스를 이해
    - Google의 BARD 등 핵심 기술에 사용됨
    - 100개 이상의 언어로 사전학습 : 다양한 언어 (한국어 포함)에서 높은 성능

  • GPT-3.5 / GPT-4 (OpenAI) 
    - 모델 크기: 알 수 없음 
    - 모델 구조: Decoder-only 구조 (추정)
    - 소수언어를 포함한 대부분의 언어에서 가장 좋은 성능 
    - GPT-4는 모든 LLM을 통틀어서 현재 가장 좋은 모델로 뽑힘

 

Multilingual LLM Benchmark
  • Multilingual LLM Benchmark
    - 대부분의 LLM들의 성능 평가는 “영어”에서만 진행되었고, 이는 다국어 능력에 대해 평가하는 것에 한계를 의미
    - 벤치마크의 부재로, 이전 Multilingual LLMs들의 성능 평가는 “번역”과 같은 한정적인 다국어 성능을 보고
    - LLM 등장 이후로, 생성형 모델에서 다국어 생성 능력을 평가하는 다양한 벤치마크 등장

  •  LASER(2019)
    - Language-Agnostic SEntence Representations
    - 최초의 대량의 multi-language 연구
    - Multi-language의 단어들을 하나의 space에 embedding
    - 50 languages 제안, 추후에 200 languages로 update (2022년)

  • LASER2(2020)
    - 동일한 의미를 가진 문장의 embedding을 자동으로 pairing하는 embedding 생성 
    - 100 languages

  • Flores, 2019
    - English와 low-resource language간의 machine translation dataset
    - 2 languages(Nepali, Sinhala)
    - 이후 Flores 101, Flores 200 등 등장

  • Flores-101, 2021
    - 최초의 many-to-many evaluation dataset
    - Multilingual translation dataset
    - 101 languages

  • Flores-200, 2022
    - Flores-101을 200 languages 로 확장한 dataset

  • WikiMatrix, 2019
    - Wikipedia로부터 추출한 135M parallel sentences
    - 85 languages

  • CCMatrix, 2020
    - 웹 기반으로 생성된 양질의 dataset
    - 4.5B parallel sentences
    - 576 language pair

  • NLLB 200, 2022
    - No Language Left Behind (NLLB)
    - 200 languages를 지원하는 language model과 dataset 공개
    - 다양한 low resource language을 포함
    - High resource language와 low resource language간의 성능 격차를 줄이기 위함
    - Low resource language의 번역 성능 상승을 통한 정보 접근성 상승 및 디지털 격차 해소를 꾀함

  • MEGA (Multilingual Evaluation of Generative AI)
    - 70개의 언어에 대해 16개 데이터 Benchmark 구성
    - Commonsense Reasoning, NLI, QA, Sequence Labeling, Natural Language Generation, Responsible AI 등 여러 범위의 LLM 능력 평가
    - 실제 LLM 사용과 동일하게 Few-shot 셋팅으로 평가를 진행
    - GPT-4 및 BLOOMZ 모델이 높은 성능

  • Open Multilingual LLM Evaluation Leaderboard
    - 다음의 4개의 벤치마크에 대해 평가 (29개 언어)
        - AI2 Reasoning Challenge (25-shot)
        - HellaSwag (10-shot) 
        - MMLU (5-shot) 
        - TruthfulQA (0-shot)

'Study > 자연언어처리 NLP' 카테고리의 다른 글

Cross Lingual LLM  (0) 2025.02.05
Multimodal LLM  (0) 2025.02.05
LLM 기반 Prompt Engineering 연구  (1) 2025.02.05
LLM 기반 Application 연구  (0) 2025.02.05
LLM 기반 Evaluation-Centric NLP 연구  (2) 2025.02.04