Large Language Model

Study/자연언어처리 NLP

Large Language Model

김 도경 2025. 2. 4. 10:54

Large Language Model 개요

LLM의 정의
- 기존 언어모델의 확장판 => 방대한 파라미터 수를 가진 언어모델을 의미
- Large Language Models 시대 = Foundation Models의 시대
- 창발성: 단일 모델로 여러 Task를 처리
- 새로운 인공지능 개발 방식 = 육수 하나만 잘 끓이면 되는 시대
Large Language Models 춘추전국시대

LLM의 핵심 - Human Alignment (Human Feedback)
LLM은 리셋 모먼트
LLM의 등장 배경
- Scaling Law
- In-Context Learning
- 특정 크기를 기점으로 급격한 상승
- Instruction Tuning은 언어모델의 성능 향상시킴
LLM의 재료
- Infra
- Hyper Scale Cloud, Super Computing, Hyper Scale Data Center
- 운영 환경 (하드웨어)
- AI+클라우드를 중심으로 비즈니스 패러다임이 이동할 것
- Backbone Model
- ChatGPT도 결국 GPT 3.5기반으로 학습
- HyperClova X, SearchGPT도 HyperClova기반으로 학습
- Tuning (비용 효율적인 백본 튜닝 기술)
- 어떻게 경량화 할 것인가?
- 반도체 기술 (행렬 연산 최적화)
- Data (고품질 & 다량의 학습 데이터)
- Prompt, Instruction
LLM의 데이터 구성

LLM의 제작 과정
- Data Processing
- Pre-training & Supervised Finetuning

Large Language Model의 방향성

Data & Size
- LLM을 학습할 때 데이터 구성의 중요성
- 중요한 것은 사전학습 모델의 크기! : Small LLM은 효과가 미비함
Multimodal
- Vision and Language
- PaLM-E: Google Research가 보유한 PaLM을 Robot과 멀티모달 학습에 적용
- Kosmos-1 & 2 : Microsoft가 Multimodal Large Language Model 공개
- GPT-4: Open AI가 ChatGPT 릴리즈 후, 반년도 안되어 GPT-4 공개
- Gemini: Google Deepmind의 새로운 Multimodal Model
- Meta의 “IMAGEBIND” = One Embedding Space To Bind Them All
- OpenAI Family, OpenAI
- Open Source 진영
- Google
Synthetic Data
- Generative Model, Synthetic Data의 비중 상승 추세
- 심지어 강력하고 사람보다 우수한 Case가 발생

- LLM을 이용한 레이블링 성능의 변천사
- 2021년 8월: GPT-3는 도움이 되었지만 사람보다 낫지는 않음
- 2023년 3월: GPT-3.5는 인간과 거의 동등
- 2023년 4월: GPT-4는 시간당 $25의 사람보다 나음
Domain Specialized
Evaluation
- GPT-EVAL
- LLM-Eval
Prompt Engineering
- Prompt: LLM으로부터 사용자가 원하는 결과를 도출하기 위한 Input 혹은 Instruction
- Prompt Engineering: 대화형 AI가 생성하는 결과물의 품질을 높일 수 있는 prompt 입력 값들의 조합을 찾는 작업
- 단순히 LLM이 보유하고 있는 내재된 능력치를 발굴하는 것은 Prompt Engineering이 아닌 Prompt Discovering이라고 생각 → 논문 1개로 끝!

- Chain-of-thought prompting (COT)
- 단지 답변을 내놓기 위한 것이 아닌, 답변에 도달하는 과정을 학습시키는 것을 목적으로 함
- 사람의 생각의 흐름을 함께 학습 시킴
- PaLM을 학습할 때 추리(Reasoning) 관련 기존 데이터셋을 확장 시켜 중간 논리를 설명한 부분을 넣었더니, 성능이 확연히 오름

- Prompt Manager (Cross Function Modality)
- Prompt를 발굴하는 것도 중요하나 개별적인 모달리티를 연결하기 위한, Prompt Manager기술이 중요해 질 것 => 이것이 결국 서드 파티를 만드는 핵심

- Prompt Manager (API Manager)

- Function Call
- 모델이 API 호출 입력으로부터 함수 호출 시점을 파악해내고, 함수 호출에 필요한 파라미터 등의 정보를 JSON 형태로 내보낼 수 있게 하는 것
- ChatGPT API 호출을 통해 원하는 함수를 적절한 인자와 함께 호출하는 것이 가능

- Prompt Engineering (Learning)
- Parameter Efficient Fine-Tuning (PEFT) -> P-Tuning (Prompt Learning)
- LoRA (Adapter) => 모델의 일부 파라미터만을 튜닝함으로써 모델의 성능을 적은 자원으로도 높게 유지하는 방법론

- Prompt Parameter Tuning (PPT)

- Automatic Curriculum
- “Goals”만 설정하면 달성을 위해 필요한 것을 자동으로 실행 => 실수를 스스로 수정하는 ‘자율반복(autonomous iterations)’ 기능을 사용해 결과물을 생성

- PromptOps Cost를 관리하기 위한 것이 핵심!
3rd Party Platform

- DevOps -> MLOps -> LLMOps (FMOps)

Open Source
- GPT3 파라미터 크기인 175B까지 모델과 코드 오픈 됨
- 그러나 어차피 공개를 해도 돌릴 수 있는 곳이 얼마 없음
- Eleuther AI는 Big Model 민주화를 꿈꾸는 곳
- Huggingface도 마찬가지. BigScience 그룹의 움직임

- 내 컴퓨터에서 LLM을 돌릴 수 있는 시대
At a Glance
- 잘 활용을 하자
- 빠르고 선점해야 함. 그러면서 독자적인 것이 필요
- 미래의 LLM Research를 잘 대비하자
- SOTA 의미 없다
- LLM으로 인하여 Converge되는 Task를 잘 분간해야
- Real-World에서 사용할 수 있고, 도움이 되는 기술인지 아닌지로 논문 및 연구는 나뉠 것
- LLM의 명확한 약점을 공략해라 (Reasoning, Commonsense, Hallucination, Expert Knowledge, Ethics)
- 정신 똑바로 차리고, 잘 따라가야 함. 최신 트렌드에 굉장히 예민하고 민감해야 함

저작자표시 비영리 변경금지

'Study > 자연언어처리 NLP' 카테고리의 다른 글

LLM 기반 Data-Centric NLP 연구 (2)	2025.02.04
Large Language Model의 근간 이론 (1)	2025.02.04
사전학습 기반 언어모델의 한계점 및 방향성 (2)	2025.02.03
의미기반 언어 지식 표현 체계 (0)	2025.02.03
문맥기반 언어지식 표현 체계 이론 (0)	2025.02.03

현재글Large Language Model

개발 성장 노트

Upstage AI Lab 5기와 코딩관련 공부에 대해서 기록을 하기 위한 블로그입니다.

자연언어처리, 딥러닝, 경진대회, 패스트캠프업스테이지에이아이랩, 국비지원, 업스테이지패스트캠퍼스, 인공지능, 머신러닝, UpstageAILab, 국비지원취업, 부트캠프, 업스테이지패스트캠프, 패스트캠퍼스AI부트캠프, cv, 패스트 캠퍼스, 패스트캠퍼스업스테이지부트캠프, 패스트캠퍼스, 패스트캠퍼스업스테이지에이아이랩, LLM, ai 부트캠프,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

개발 성장 노트

Large Language Model

'Study > 자연언어처리 NLP' 카테고리의 다른 글

'Study/자연언어처리 NLP'의 다른글

티스토리툴바

Large Language Model

'Study > 자연언어처리 NLP' 카테고리의 다른 글

'Study/자연언어처리 NLP'의 다른글

관련글

티스토리툴바