Large Language Model 개요
- LLM의 정의
- 기존 언어모델의 확장판 => 방대한 파라미터 수를 가진 언어모델을 의미
- Large Language Models 시대 = Foundation Models의 시대
- 창발성: 단일 모델로 여러 Task를 처리
- 새로운 인공지능 개발 방식 = 육수 하나만 잘 끓이면 되는 시대 - Large Language Models 춘추전국시대
- LLM의 핵심 - Human Alignment (Human Feedback)
- LLM은 리셋 모먼트
- LLM의 등장 배경
- Scaling Law
- In-Context Learning
- 특정 크기를 기점으로 급격한 상승
- Instruction Tuning은 언어모델의 성능 향상시킴 - LLM의 재료
- Infra
- Hyper Scale Cloud, Super Computing, Hyper Scale Data Center
- 운영 환경 (하드웨어)
- AI+클라우드를 중심으로 비즈니스 패러다임이 이동할 것
- Backbone Model
- ChatGPT도 결국 GPT 3.5기반으로 학습
- HyperClova X, SearchGPT도 HyperClova기반으로 학습
- Tuning (비용 효율적인 백본 튜닝 기술)
- 어떻게 경량화 할 것인가?
- 반도체 기술 (행렬 연산 최적화)
- Data (고품질 & 다량의 학습 데이터)
- Prompt, Instruction - LLM의 데이터 구성
- LLM의 제작 과정
- Data Processing
- Pre-training & Supervised Finetuning
Large Language Model의 방향성
- Data & Size
- LLM을 학습할 때 데이터 구성의 중요성
- 중요한 것은 사전학습 모델의 크기! : Small LLM은 효과가 미비함 - Multimodal
- Vision and Language
- PaLM-E: Google Research가 보유한 PaLM을 Robot과 멀티모달 학습에 적용
- Kosmos-1 & 2 : Microsoft가 Multimodal Large Language Model 공개
- GPT-4: Open AI가 ChatGPT 릴리즈 후, 반년도 안되어 GPT-4 공개
- Gemini: Google Deepmind의 새로운 Multimodal Model
- Meta의 “IMAGEBIND” = One Embedding Space To Bind Them All
- OpenAI Family, OpenAI
- Open Source 진영
- Google - Synthetic Data
- Generative Model, Synthetic Data의 비중 상승 추세
- 심지어 강력하고 사람보다 우수한 Case가 발생
- LLM을 이용한 레이블링 성능의 변천사
- 2021년 8월: GPT-3는 도움이 되었지만 사람보다 낫지는 않음
- 2023년 3월: GPT-3.5는 인간과 거의 동등
- 2023년 4월: GPT-4는 시간당 $25의 사람보다 나음 - Domain Specialized
- Evaluation
- GPT-EVAL
- LLM-Eval - Prompt Engineering
- Prompt: LLM으로부터 사용자가 원하는 결과를 도출하기 위한 Input 혹은 Instruction
- Prompt Engineering: 대화형 AI가 생성하는 결과물의 품질을 높일 수 있는 prompt 입력 값들의 조합을 찾는 작업
- 단순히 LLM이 보유하고 있는 내재된 능력치를 발굴하는 것은 Prompt Engineering이 아닌 Prompt Discovering이라고 생각 → 논문 1개로 끝!
- Chain-of-thought prompting (COT)
- 단지 답변을 내놓기 위한 것이 아닌, 답변에 도달하는 과정을 학습시키는 것을 목적으로 함
- 사람의 생각의 흐름을 함께 학습 시킴
- PaLM을 학습할 때 추리(Reasoning) 관련 기존 데이터셋을 확장 시켜 중간 논리를 설명한 부분을 넣었더니, 성능이 확연히 오름
- Prompt Manager (Cross Function Modality)
- Prompt를 발굴하는 것도 중요하나 개별적인 모달리티를 연결하기 위한, Prompt Manager기술이 중요해 질 것 => 이것이 결국 서드 파티를 만드는 핵심
- Prompt Manager (API Manager)
- Function Call
- 모델이 API 호출 입력으로부터 함수 호출 시점을 파악해내고, 함수 호출에 필요한 파라미터 등의 정보를 JSON 형태로 내보낼 수 있게 하는 것
- ChatGPT API 호출을 통해 원하는 함수를 적절한 인자와 함께 호출하는 것이 가능
- Prompt Engineering (Learning)
- Parameter Efficient Fine-Tuning (PEFT) -> P-Tuning (Prompt Learning)
- LoRA (Adapter) => 모델의 일부 파라미터만을 튜닝함으로써 모델의 성능을 적은 자원으로도 높게 유지하는 방법론
- Prompt Parameter Tuning (PPT)
- Automatic Curriculum
- “Goals”만 설정하면 달성을 위해 필요한 것을 자동으로 실행 => 실수를 스스로 수정하는 ‘자율반복(autonomous iterations)’ 기능을 사용해 결과물을 생성
- PromptOps Cost를 관리하기 위한 것이 핵심! - 3rd Party Platform
- DevOps -> MLOps -> LLMOps (FMOps)
- Open Source
- GPT3 파라미터 크기인 175B까지 모델과 코드 오픈 됨
- 그러나 어차피 공개를 해도 돌릴 수 있는 곳이 얼마 없음
- Eleuther AI는 Big Model 민주화를 꿈꾸는 곳
- Huggingface도 마찬가지. BigScience 그룹의 움직임
- 내 컴퓨터에서 LLM을 돌릴 수 있는 시대 - At a Glance
- 잘 활용을 하자
- 빠르고 선점해야 함. 그러면서 독자적인 것이 필요
- 미래의 LLM Research를 잘 대비하자
- SOTA 의미 없다
- LLM으로 인하여 Converge되는 Task를 잘 분간해야
- Real-World에서 사용할 수 있고, 도움이 되는 기술인지 아닌지로 논문 및 연구는 나뉠 것
- LLM의 명확한 약점을 공략해라 (Reasoning, Commonsense, Hallucination, Expert Knowledge, Ethics)
- 정신 똑바로 차리고, 잘 따라가야 함. 최신 트렌드에 굉장히 예민하고 민감해야 함
'Study > 자연언어처리 NLP' 카테고리의 다른 글
LLM 기반 Data-Centric NLP 연구 (2) | 2025.02.04 |
---|---|
Large Language Model의 근간 이론 (1) | 2025.02.04 |
사전학습 기반 언어모델의 한계점 및 방향성 (2) | 2025.02.03 |
의미기반 언어 지식 표현 체계 (0) | 2025.02.03 |
문맥기반 언어지식 표현 체계 이론 (0) | 2025.02.03 |