Data-Centric AI가 산업에 미친 영향

Study/Data Centric

Data-Centric AI가 산업에 미친 영향

김 도경 2025. 2. 18. 14:39

Pretraining & Fine-Tuning

트랜스포머 기반 언어 모델
- 트랜스포머의 인코더/디코더 구조를 이용한 언어 모델이 기존의 LSTM 계열을 압도하는 성능을 보이면서,
- 웬만한 언어 모델은 모두 트랜스포머 계열로 대체되고 NLP 분야의 연구가 활발히 이루어짐
거대 언어 모델 (Large Language Model, LLM)
- 여러 연구를 통해 트랜스포머 계열은 모델 파라미터가 많을수록 더 일반화된 좋은 성능을 가짐을 실증적으로 보임
- 그러나 이를 위해서 많은 데이터와 연산 자원이 필요하며, 일부 초거대 IT기업만이 이를 가능케 함
파인튜닝 (Fine-Tuning)
- 일반적인 기업, 개인, 연구자들은 이렇게 사전학습된 LLM을 자신의 태스크에 맞게 리폼하는 파인튜닝을 통해 언어 모델을 이용함
파인튜닝용 데이터의 확보
- (사전학습 대비) 소량의 고품질 데이터만 확보하면 원하는 목적에 맞게 LLM을 파인튜닝할 수 있음
LoRA (Low-Rank Adaptation)
- 기존의 파인튜닝 기법 : 사전 학습 모델의 파라미터를 일부/전부 재학습하거나 추가적인 레이어를 붙인 뒤 이를 학습
- LoRA (Low-Rank Adaptation)
- 사전 학습 모델을 완전히 고정(freeze)한 채로 낮은 랭크의 쿼리-값 어텐션 행렬을 추가하여 해당 어텐션 행렬만 학습
- 모델의 크기 및 필요한 데이터 양을 줄일 수 있음
Meta의 LLaMA (Large Language Model Meta AI)
- [23.02.24] Meta의 LLaMA 모델이 연구 목적으로 공개됨 (7B, 13B, 33B, 65B)
- [23.03.03] LLaMA의 체크포인트가 토렌트를 통해 모두 유출됨
- [23.03.13] Stanford HAI 연구실 학생들이 파인튜닝한 Alpaca 모델이 공개됨
- LLaMA를 52000개의 self-instruct 데이터로 파인튜닝한 모델
- 이를 통해 instruction-following 형태의 데이터로 파인튜닝하면 챗GPT와 같은 결과를 얻을 수 있음이 확인됨
- 데이터는 CC-BY-NC 라이선스로 공개되었으나, 모델은 메타의 허락을 받지 못해 연구용으로만 사용가능
- [23.03.14] Alpaca 모델을 LoRA로 파인튜닝하여 Alpaca 모델을 재현한 Alpaca-LoRA 모델이 공개됨
- [23.07.18] Meta의 Llama 2가 공개됨 (7B, 13B, 70B) → 무료로 공개 및 (거의) 상업적 이용 가능
- 월 이용자가 7억 명 이상인 회사의 경우 라이선스 계약이 요구됨

Prompt Engineering

Prompt Engineering 관련 용어
- 프롬프트(Prompt)
- 인공지능이 수행해야 할 작업을 설명하는 자연어 텍스트
- 모델과 최종 사용자 모두가 이해하기 쉽도록 간결하고 명확해야 함
- 지나치게 복잡한 언어를 사용하거나 불필요한 정보를 제공하면 부정확한 결과가 나올 수 있음

- 프롬프트 엔지니어링(Prompt Engineering)
- 생성 모델이 이해할 수 있는 형태로 프롬프트(텍스트)를 구조화하는 과정
- ext-to-text 및 text-to-image 모델에 주로 사용됨

- In-Context Learning
- 모델이 이전에 배운 정보나 컨텍스트를 활용하여 미래의 작업을 수행하거나 이해하는 것
- 이전 대화에서 나온 정보나 질문에 대한 답변을 기억하여 활용하는 것
GPT-3를 통해 알게 된 사실
1) 입력값에 지시문을 포함시키면 그에 맞는 결과를 준다
- 해결하고자 하는 태스크를 텍스트 형태로 입력값에 넣어주면 태스크의 정답에 해당하는 결과를 리턴함
- 지시문에 예제를 많이 포함시킬수록 더 좋은 결과를 보임
- 크기가 큰 LLM일수록 더 좋은 결과를 보이며, 일정 수준을 넘어서면 파인튜닝보다도 나은 결과를 보임

2) 지시가 구체적일수록 의도에 가까운 결과를 준다
- 모델에게 입력값을 구체적으로 지시할수록 더 정확한/의도에 맞는 결과물을 얻을 수 있음 ⇒ 프롬프트 엔지니어링
- 다양한 목적에 맞는 프롬프트 템플릿이 공유되고, 프롬프트 엔지니어(prompt engineer)라는 새로운 직군이 출현함

Data-Centric AI 관련 연구

Data-Centric AI Workshop
- Data-Centric AI 분야의 경우, 특정 학회가 존재하지 않으나 워크샵의 형태로 매년 하나씩 개최되는 중

- DMLR @ ICML'23 (Data-centric Machine Learning Research Workshop at ICML 2023)
- DataPerf Workshop @ ICML 2022
- Data-Centric AI (DCAI) @ NeurIPS2021
- Data Excellence (DEW) @ HCOMP2020
- Machine Learning for Data – Automated Creation, Privacy, Bias @ ICML 2021
- Economics of Privacy and Data Labor @ ICML 2020
- Evaluating Evaluation of AI Systems (Meta-Eval) @ AAAI 2020
- Rigorous Evaluation of AI Systems (REAIS) @ HCOMP 2020 and 2019
- Subjectivity, Ambiguity and Disagreement (SAD) @ WWW 2019 and HCOMP 2018
Data-Centric Machine Learning Research’s Scope
- 데이터셋 및 벤치마크
- 벤치마킹 도구 및 방법
- 데이터의 수집, 생성, 라벨링, 증강, 클렌징, 품질평가, 정렬 등에 대한 방법론 및 평가
- 생성 모델 및 강화 학습 환경
- 데이터의 생성과 사용에 관한 사회 윤리적 연구
- 데이터 품질 (데이터 편향, 분산, 불확실성 등)
- 생성 모델 및 기반 모델을 위한 프롬프트 설계
- 대회 및 벤치마크 설계를 포함한 실험 설계 및 실증적 평가 방법론
- 기존 데이터셋 분석, 기존 데이터셋의 중요한 문제 파악 및 사용을 위한 프레임워크
Data-Centric AI 관련 연구 분야
- Opening Remarks | ML4Data – Automated Creation, Privacy, Bias @ ICML 2021
- Opening Remarks | DCAI @ NeurIPS2021
- DataPerf Benchmark | DataPerf Workshop @ ICML 2022
- Prompting for Small Dataset | DMLR @ ICML 2023
Data-Centric AI 관련 태스크
- 이상 탐지 및 제거 (Anomaly Detection & Removal)
- 오류 감지 및 수정 (Error Detection & Correction)
- 데이터 증강 (Data Augmentation) Chapter 3. 1강 p5-8 참고
- 피쳐 엔지니어링 (Feature Engineering)
- 컨센서스 라벨링 (Consensus Labeling)
- 액티브 러닝 (Active Learning) Chapter 6. 6강에서 다룰 예정
- 커리큘럼 학습 (Curriculum Learning)

저작자표시 비영리 변경금지

'Study > Data Centric' 카테고리의 다른 글

데이터 구축 프로세스 (0)	2025.02.18
Data-Centric AI의 미래 (1)	2025.02.18
Data-Centric AI (1)	2025.02.17

현재글Data-Centric AI가 산업에 미친 영향

개발 성장 노트

Upstage AI Lab 5기와 코딩관련 공부에 대해서 기록을 하기 위한 블로그입니다.

패스트캠프업스테이지에이아이랩, cv, 패스트캠퍼스AI부트캠프, 패스트캠퍼스, LLM, 인공지능, 패스트캠퍼스업스테이지부트캠프, 경진대회, 업스테이지패스트캠퍼스, 머신러닝, 패스트캠퍼스업스테이지에이아이랩, 국비지원, 패스트 캠퍼스, 부트캠프, 국비지원취업, ai 부트캠프, 업스테이지패스트캠프, 자연언어처리, UpstageAILab, 딥러닝,

Today :
Yesterday :

개발 성장 노트

Data-Centric AI가 산업에 미친 영향

'Study > Data Centric' 카테고리의 다른 글

'Study/Data Centric'의 다른글

티스토리툴바

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Data-Centric AI가 산업에 미친 영향

'Study > Data Centric' 카테고리의 다른 글

'Study/Data Centric'의 다른글

관련글

티스토리툴바