2025/02 28

Cross Lingual LLM

간단한 전이학습 방법Instruction Tuning- 목표 언어에 대한 Instruction Tuning만 진행하는 방법- 사전학습된 LLM에 목표 언어에 대한 Instruction Tuning을 진행하는 방법- 소스 언어로 학습된 모델이 목표 언어에 대한 Instruction Tuning 데이터를 학습하여 목표 언어에 대한 이해를 높이는 방법 - 조건: 사전학습을 진행할 LLM이 목표 언어 대해 낮은 OOV (Out of vocabulary) rate의 vocabulary를 가지고 있어야 하며, 소스 언어와 목표 언어의 유사도가 높아야 함 - 장점: Instruction Data 만으로 손쉽게 학습 가능 - 단점: 성능이 낮을 수 있음 Further Pre-training- 목표 언어에 대해 사전학습..

Multimodal LLM

Multimodal PLMsMultimodal PLMs - 여러 데이터 형태 (이미지, 텍스트, 오디오, 비디오 등)를 처리할 수 있는 사전학습 모델 - Image-Text Multimodal : 이미지와 텍스트 데이터를 모두 처리할 수 있는 모델- Audio-Text Multimodal : 오디오 신호와 텍스트를 모두 처리할 수 있는 모델 - Video-Text Multimodal : 비디오와 텍스트를 모두 처리할 수 있는 모델Image-Text Multimodal: 이미지와 텍스트 데이터를 모두 처리할 수 있는 모델 - Image2Text Retrieval, Text2Image Retrieval- Visual Question Answering (VQA) - Visual Question Generati..

Multilingual LLM

Multilingual Pre-trained ModelsMultilingual PLMs- 초기 사전학습 모델에서 다국어 모델을 만드려는 노력은 only-encoder 혹은 encoder-decoder에서 주로 이루어짐 • only-encoder 모델에서는 주로 “동일한 공간 (space)에 언어적 정보를 매핑”을 위함- 언어적 자원이 없는 “소수 언어”에서 적은 양의 데이터로 좋은 분류 성능을 내기 위함 • encoder-decoder 모델에서는 주로 “번역”을 위해서 사전학습 진행- 언어적 자원이 없는 “소수 언어”에서의 번역 모델을 만들기 위함mBERT - Encoder-only 모델- BERT의 다국어 버전으로, 102개 언어의 위키피디아(wikipedia.org) 데이터를 사용하여 학습- MLM ..

LLM 기반 Prompt Engineering 연구

Prompt EngineeringPrompt Engineering - 요구하는 작업을 지시하기 위한 작업! 요약? 분류? 추출?- LLM 시대로 넘어오면서 Task 수행을 위한 Template, Task Example, Answer Engineering 등의 Hard Prompt를 구성하는 방법을 주로 칭함 Prompt Engineering의 종류LLM의 In-Context Learning (ICL) 능력을 활용하기 위함: Prompt EngineeringLLM Prompt의 구성 요소 - Task Instruction, Demonstrations (Examples), QueryLLM Prompting Example- 수학적 추론, 데이터 추론, 상식 추론 등, 수행하고자 하는 작업에 맞는 특성을 고려해..

LLM 기반 Application 연구

LLMOpsLLMOps의 개념 - LLMOps (Large Language Model Operations)란? LLMs 운영 관리(학습/배포)에 활용되는 사례, 기술 및 도구 등을 포괄하는 개념- MLOps와 유사한 기술로 구성(데이터, 모델 학습 및 서빙), But, 모델의 규모가..!LLMOps의 특수성- 모델 사이즈    - 모델의 크기가 매우 큼 → High Computational Resources → 최적화 및 병렬 처리와 같은 시스템 요구- 데이터의 특수성 - 데이터 크기 및 형식    - LLMs를 학습하는데 필요한 데이터의 크기 및 데이터의 형태(Prompt Engineering 등)을 고려- 데이터의 특수성 - Prompt Engineering    - LLM의 창발 능력을 위한 In-..

LLM 기반 Evaluation-Centric NLP 연구

LLM EvaluationA Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark Datasets- QA, 요약, Code generation, 상식 추론, 수학적 문제 해결, 기계 번역, 등 같은 작업을 다루는 다양한 NLP 데이터셋에 대한 ChatGPT의 성능 평가 및 분석 → 140 tasks에 대하여 총 255K 생성 결과 분석- 대부분의 언어 이해 작업에서 우수한 zero-shot 능력을 보임, 수학적 추론 태스크와 같은 일부 작업에서는 정답이 맞았는데 추론 과정이 오답을 보이는 등의 현상이 관측됨G-EVAL: NLG Evaluation using GPT-4 with Better Human Alignment - BLEU, R..

LLM 기반 Model-Centric NLP 연구

LLM Tuning Fine-Tuning - Fine-Tuning은 LLM 이전 세대부터 사용되던 용어로 사전학습된 모델을 특정 작업에 특화 학습하는 과정을 칭함- LLM Fine-tuning은 일반적으로 Instruction Tuning 을 지칭 - LLM은 방대한 수의 파라미터를 갖기 때문에 tuning에 많은 Computation resources가 요구됨 ⇒ Parameter Efficient Tuning Parameter Efficient Tuning - LLM 전체가 아닌 일부분만을 튜닝하는 방법론 - Adapter-based Fine-tuning (Adapter-based, Prefix-tuning …)Adapter-based Tuning- 기존 모델과 별도의 파라미터를 가진 Adapter ..

LLM 기반 Data-Centric NLP 연구

사전 학습을 위한 학습 데이터사전 학습 데이터- 웹 데이터(Wikipedia, News, Reviews, …) 등을 활용하여 구축- 데이터의 품질 및 다양성이 모델의 성능에 큰 영향을 줌 ⇒ 데이터 전처리 작업이 중요- 품질 및 성능 보장을 위해 필터링/중복 제거 등의 전처리 작업 필요- 영어의 경우 특히 Common Crawl, WebText2, BookCorpus, Wikipedia 등을 소스로 활용사전 학습 데이터의 품질 및 다양성- LLM 사전 학습 데이터의 “Age”, “Quality”, and “Composition (Domain)”이 평가 성능에 큰 영향을 줌 - 특히 다양한 Data sources에 대한 coverage가 가장 큰 영향을 줌 (우측 하단) 사전 학습 데이터 구성의 예- GP..

Large Language Model의 근간 이론

In-Context LearningFine Tuning - 대규모 코퍼스로 사전학습 후, 적은 규모의 specific한 데이터셋에 대해 fine tuning하는 과정   => 일반화된 task가 아닌, 일부 task에 대해서 능력을 집중적으로 향상In-Context Learning - 원하는 task에 대한 간단한 설명을 함께 Input=> 학습 과정에서 다양한 스킬과 패턴인식 능력을 키워, Inference 단계에서 원하는 task에 빠르게 적응할 수 있도록 함N-Shot Learning- 모델에 주어지는 예시의 수가 증가할수록 성능이 증가- In-Context Prompt는 중요Zero-Shot Learning - 예시를 전혀 보지 않고 모델 업데이트 없이 새로운 태스크를 수행- Unsupervise..

Large Language Model

Large Language Model 개요LLM의 정의 - 기존 언어모델의 확장판 => 방대한 파라미터 수를 가진 언어모델을 의미 - Large Language Models 시대 = Foundation Models의 시대- 창발성: 단일 모델로 여러 Task를 처리- 새로운 인공지능 개발 방식 = 육수 하나만 잘 끓이면 되는 시대 Large Language Models 춘추전국시대LLM의 핵심 - Human Alignment (Human Feedback)LLM은 리셋 모먼트 LLM의 등장 배경 - Scaling Law - In-Context Learning - 특정 크기를 기점으로 급격한 상승 - Instruction Tuning은 언어모델의 성능 향상시킴 LLM의 재료 - Infra     - Hype..