Pretraining & Fine-Tuning
- 트랜스포머 기반 언어 모델
- 트랜스포머의 인코더/디코더 구조를 이용한 언어 모델이 기존의 LSTM 계열을 압도하는 성능을 보이면서,
- 웬만한 언어 모델은 모두 트랜스포머 계열로 대체되고 NLP 분야의 연구가 활발히 이루어짐 - 거대 언어 모델 (Large Language Model, LLM)
- 여러 연구를 통해 트랜스포머 계열은 모델 파라미터가 많을수록 더 일반화된 좋은 성능을 가짐을 실증적으로 보임
- 그러나 이를 위해서 많은 데이터와 연산 자원이 필요하며, 일부 초거대 IT기업만이 이를 가능케 함 - 파인튜닝 (Fine-Tuning)
- 일반적인 기업, 개인, 연구자들은 이렇게 사전학습된 LLM을 자신의 태스크에 맞게 리폼하는 파인튜닝을 통해 언어 모델을 이용함 - 파인튜닝용 데이터의 확보
- (사전학습 대비) 소량의 고품질 데이터만 확보하면 원하는 목적에 맞게 LLM을 파인튜닝할 수 있음 - LoRA (Low-Rank Adaptation)
- 기존의 파인튜닝 기법 : 사전 학습 모델의 파라미터를 일부/전부 재학습하거나 추가적인 레이어를 붙인 뒤 이를 학습
- LoRA (Low-Rank Adaptation)
- 사전 학습 모델을 완전히 고정(freeze)한 채로 낮은 랭크의 쿼리-값 어텐션 행렬을 추가하여 해당 어텐션 행렬만 학습
- 모델의 크기 및 필요한 데이터 양을 줄일 수 있음 - Meta의 LLaMA (Large Language Model Meta AI)
- [23.02.24] Meta의 LLaMA 모델이 연구 목적으로 공개됨 (7B, 13B, 33B, 65B)
- [23.03.03] LLaMA의 체크포인트가 토렌트를 통해 모두 유출됨
- [23.03.13] Stanford HAI 연구실 학생들이 파인튜닝한 Alpaca 모델이 공개됨
- LLaMA를 52000개의 self-instruct 데이터로 파인튜닝한 모델
- 이를 통해 instruction-following 형태의 데이터로 파인튜닝하면 챗GPT와 같은 결과를 얻을 수 있음이 확인됨
- 데이터는 CC-BY-NC 라이선스로 공개되었으나, 모델은 메타의 허락을 받지 못해 연구용으로만 사용가능
- [23.03.14] Alpaca 모델을 LoRA로 파인튜닝하여 Alpaca 모델을 재현한 Alpaca-LoRA 모델이 공개됨
- [23.07.18] Meta의 Llama 2가 공개됨 (7B, 13B, 70B) → 무료로 공개 및 (거의) 상업적 이용 가능
- 월 이용자가 7억 명 이상인 회사의 경우 라이선스 계약이 요구됨
Prompt Engineering
- Prompt Engineering 관련 용어
- 프롬프트(Prompt)
- 인공지능이 수행해야 할 작업을 설명하는 자연어 텍스트
- 모델과 최종 사용자 모두가 이해하기 쉽도록 간결하고 명확해야 함
- 지나치게 복잡한 언어를 사용하거나 불필요한 정보를 제공하면 부정확한 결과가 나올 수 있음
- 프롬프트 엔지니어링(Prompt Engineering)
- 생성 모델이 이해할 수 있는 형태로 프롬프트(텍스트)를 구조화하는 과정
- ext-to-text 및 text-to-image 모델에 주로 사용됨
- In-Context Learning
- 모델이 이전에 배운 정보나 컨텍스트를 활용하여 미래의 작업을 수행하거나 이해하는 것
- 이전 대화에서 나온 정보나 질문에 대한 답변을 기억하여 활용하는 것 - GPT-3를 통해 알게 된 사실
1) 입력값에 지시문을 포함시키면 그에 맞는 결과를 준다
- 해결하고자 하는 태스크를 텍스트 형태로 입력값에 넣어주면 태스크의 정답에 해당하는 결과를 리턴함
- 지시문에 예제를 많이 포함시킬수록 더 좋은 결과를 보임
- 크기가 큰 LLM일수록 더 좋은 결과를 보이며, 일정 수준을 넘어서면 파인튜닝보다도 나은 결과를 보임
2) 지시가 구체적일수록 의도에 가까운 결과를 준다
- 모델에게 입력값을 구체적으로 지시할수록 더 정확한/의도에 맞는 결과물을 얻을 수 있음 ⇒ 프롬프트 엔지니어링
- 다양한 목적에 맞는 프롬프트 템플릿이 공유되고, 프롬프트 엔지니어(prompt engineer)라는 새로운 직군이 출현함
Data-Centric AI 관련 연구
- Data-Centric AI Workshop
- Data-Centric AI 분야의 경우, 특정 학회가 존재하지 않으나 워크샵의 형태로 매년 하나씩 개최되는 중
- DMLR @ ICML'23 (Data-centric Machine Learning Research Workshop at ICML 2023)
- DataPerf Workshop @ ICML 2022
- Data-Centric AI (DCAI) @ NeurIPS2021
- Data Excellence (DEW) @ HCOMP2020
- Machine Learning for Data – Automated Creation, Privacy, Bias @ ICML 2021
- Economics of Privacy and Data Labor @ ICML 2020
- Evaluating Evaluation of AI Systems (Meta-Eval) @ AAAI 2020
- Rigorous Evaluation of AI Systems (REAIS) @ HCOMP 2020 and 2019
- Subjectivity, Ambiguity and Disagreement (SAD) @ WWW 2019 and HCOMP 2018 - Data-Centric Machine Learning Research’s Scope
- 데이터셋 및 벤치마크
- 벤치마킹 도구 및 방법
- 데이터의 수집, 생성, 라벨링, 증강, 클렌징, 품질평가, 정렬 등에 대한 방법론 및 평가
- 생성 모델 및 강화 학습 환경
- 데이터의 생성과 사용에 관한 사회 윤리적 연구
- 데이터 품질 (데이터 편향, 분산, 불확실성 등)
- 생성 모델 및 기반 모델을 위한 프롬프트 설계
- 대회 및 벤치마크 설계를 포함한 실험 설계 및 실증적 평가 방법론
- 기존 데이터셋 분석, 기존 데이터셋의 중요한 문제 파악 및 사용을 위한 프레임워크 - Data-Centric AI 관련 연구 분야
- Opening Remarks | ML4Data – Automated Creation, Privacy, Bias @ ICML 2021
- Opening Remarks | DCAI @ NeurIPS2021
- DataPerf Benchmark | DataPerf Workshop @ ICML 2022
- Prompting for Small Dataset | DMLR @ ICML 2023 - Data-Centric AI 관련 태스크
- 이상 탐지 및 제거 (Anomaly Detection & Removal)
- 오류 감지 및 수정 (Error Detection & Correction)
- 데이터 증강 (Data Augmentation) Chapter 3. 1강 p5-8 참고
- 피쳐 엔지니어링 (Feature Engineering)
- 컨센서스 라벨링 (Consensus Labeling)
- 액티브 러닝 (Active Learning) Chapter 6. 6강에서 다룰 예정
- 커리큘럼 학습 (Curriculum Learning)
'Study > Data Centric' 카테고리의 다른 글
데이터 구축 프로세스 (0) | 2025.02.18 |
---|---|
Data-Centric AI의 미래 (1) | 2025.02.18 |
Data-Centric AI (1) | 2025.02.17 |