Upstage (2023). GPT 시리즈와 발전 과정. Upstage.
- upstage 멘토링 1주-1일차 제공 아티클
- GPT의 개념과 언어 모델의 발전 배경
GPT는 언어 모델로서, 다음 단어를 예측하는 능력을 바탕으로 자연어 이해와 생성 작업을 수행
이러한 언어 모델들은 인간의 언어 이해와 유사하게 작동하며, 이를 위해 방대한 양의 데이터를 학습하여 문맥을 파악
초기의 언어 모델들은 순차적 데이터 처리를 위해 순환 신경망(RNN)과 LSTM 같은 구조를 사용했으나, 긴 텍스트에서 정보가 소실되거나 연산 속도가 느려지는 문제가 있음
GPT 시리즈와 발전 과정
- Emergence (2017년 4월)
- OpnAI에서는 언어 모델을 RNN(Rcrrnt Nrl Ntwork) 으로 만들고 있었음
- 뉴런이 감성 분석을 하고 있음을 발견
- 감정분석 : 인공지능 기술을 활용하여 텍스트의 내용을 분석하고, 이로부터 추출된 감정이나 의견을 판단하는 과정
- 주로 영화 리뷰, 온라인 게시글 등 텍스트 데이터를 대상으로 이루어지며, AI가 사람처럼 문장을 이해하고 어떤 감정이 담겼는지 파악하여 긍정, 부정, 중립 등을 구분해내는 것
- 해 의도하지 않았던 능력이 언어 모델링 과정에서 생기게 되는것인가 라는 가설이 등장 - Transformer (2017년 6월)
- 항목과 항목 사이의 연관성을 나타내는 ‘Attntion’이라는 연산
- Trnsformr는 기존의 RNN 등에 비해 계산 효율과 결과의 품질이 좋았기 때문에 이후 비전, 추천, 바이오 등 다른 모든 분야에서 쓰는 기술이 될 정도로 큰 영향력을 미침 - GPT (2018년 6월)
- 최초의 GPT는 자가 지도 학습(Self-supervised learning) 방식을 도입해 대규모 언어 데이터를 스스로 학습
- 파인튜닝 : 사전 학습된 모델(pr-trind modl)을 기반으로 특정 도메인이나 작업에 적합하게 성능을 개선하는 작업
- Prtriningfintuning 패러다임의 대표적인 논문
- GPT의 등장으로부터 큰 규모의 언어 모델링을 통해 사전학습된 모델을 만들고, 이 모델을 각 tsk에 맞는 작은 데이터셋으로 학습하는 fintning의 과정을 거치면 다양한 NLP 태스크에서 우수한 성능을 보임 - GPT-2 (2019년 2월)
- 기존 모델의 크기를 키우고 (117 → 1.5B) 학습 데이터의 양을 늘려서 (4GB → 40GB) 탄생한 버전
- GPT-2가 가짜 정보를 다량 생성할 위험성이 크다고 판단하여 외부에 공개하지 않음
- GPT-2는 언어 생성 능력뿐만 아니라 또 다른 영향력을 시사하는 mrgnc를 보임
- “Emergence”: Zero-shot learning : Unsprvisd mltitsk lrnrs
- 초기에는 언어 모델로 출발했지만 독해, 번역, 요약, &A 등 다른 다양한 태스크를 수행할 수 있는지에 대한 의문을 풀어가고자 여러 실험이 진행
- 파라미터(매개변수) 수를 늘릴수록 Zroshot의 성능이 올라가고, 특정 태스크에서는 기존의 SOTA(stt-of-th- rt, 현존하는 제일 좋은 모델) 모델을 능가하는 것이 실제로 확인 - GPT-3 (2020년 6월)
- 모델은 1.5B에서 175B로 커졌으며, 데이터 또한 600GB 이상
- 지식과 학습 없이도 태스크를 “배우는” 능력(fw-shot lrnrs)을 포함하여 여러 측면으로 mrgnc를 확인
- In-context learning - GPT-4 출시 전, 2021~2022년
GPT 외의 인공지능 추가
- CLIP (2021년 1월): “zro-shot” 이미지 분류
- DALL-E(2021년 1월): 주어진 텍스트로부터 이미지 생성
- Codx(2021년 8월): 코드 생성을 위한 모델
- InstructGPT (2022년 1월) : 명령에 대한 파인튜닝과 강화 학습이 이루어진 모델
- GPT-3.5는 GPT-3에 코드 데이터와 Instruction fin-tuning이 추가된 버전
- 명령에 대한 파인튜닝과 강화학습을 하면 사용자의 의도를 더 잘 파악하고 답변 - ChatGPT -3.5 (2022년 11월)
- sibling model
- 첫 번째 단계에서는 지시 프롬프트와 데이터셋으로 이루어진 Demonstration data를 넣어줍니다. 여기서 라벨러는 지시 프롬프트에 적합하다고 여겨지는 행동을 라벨링 하는데, 이렇게 모아진 데이터셋은 SFT(Supervised Fin Tning) 모델
'논문 > 논문 읽기' 카테고리의 다른 글
Improving Language Understandingby Generative Pre-Training (3) | 2024.11.05 |
---|---|
Language Models are Unsupervised Multitask Learners (0) | 2024.11.05 |
Highly accurate protein structure prediction with AlphaFold (4) | 2024.11.04 |
Data-Centric AI 관점으로 재해석하는 자연언어처리 기반 History of AI (7) | 2024.11.04 |
인공지능 역사, 분류 그리고 발전 방향에 관한 연구. (9) | 2024.11.04 |