Study/Data Centric

Data-Centric AI가 산업에 미친 영향

김 도경 2025. 2. 18. 14:39
Pretraining & Fine-Tuning
  • 트랜스포머 기반 언어 모델
    - 트랜스포머의 인코더/디코더 구조를 이용한 언어 모델이 기존의 LSTM 계열을 압도하는 성능을 보이면서,
    - 웬만한 언어 모델은 모두 트랜스포머 계열로 대체되고 NLP 분야의 연구가 활발히 이루어짐

  • 거대 언어 모델 (Large Language Model, LLM)
    - 여러 연구를 통해 트랜스포머 계열은 모델 파라미터가 많을수록 더 일반화된 좋은 성능을 가짐을 실증적으로 보임
    - 그러나 이를 위해서 많은 데이터와 연산 자원이 필요하며, 일부 초거대 IT기업만이 이를 가능케 함

  • 파인튜닝 (Fine-Tuning)
    - 일반적인 기업, 개인, 연구자들은 이렇게 사전학습된 LLM을 자신의 태스크에 맞게 리폼하는 파인튜닝을 통해 언어 모델을 이용함

  • 파인튜닝용 데이터의 확보
    - (사전학습 대비) 소량의 고품질 데이터만 확보하면 원하는 목적에 맞게 LLM을 파인튜닝할 수 있음

  • LoRA (Low-Rank Adaptation)
    - 기존의 파인튜닝 기법 : 사전 학습 모델의 파라미터를 일부/전부 재학습하거나 추가적인 레이어를 붙인 뒤 이를 학습
    - LoRA (Low-Rank Adaptation)
         - 사전 학습 모델을 완전히 고정(freeze)한 채로 낮은 랭크의 쿼리-값 어텐션 행렬을 추가하여 해당 어텐션 행렬만 학습
         - 모델의 크기 및 필요한 데이터 양을 줄일 수 있음

  • Meta의 LLaMA (Large Language Model Meta AI)
    - [23.02.24] Meta의 LLaMA 모델이 연구 목적으로 공개됨 (7B, 13B, 33B, 65B)
    - [23.03.03] LLaMA의 체크포인트가 토렌트를 통해 모두 유출됨
    - [23.03.13] Stanford HAI 연구실 학생들이 파인튜닝한 Alpaca 모델이 공개됨
       - LLaMA를 52000개의 self-instruct 데이터로 파인튜닝한 모델
         - 이를 통해 instruction-following 형태의 데이터로 파인튜닝하면 챗GPT와 같은 결과를 얻을 수 있음이 확인됨
       - 데이터는 CC-BY-NC 라이선스로 공개되었으나, 모델은 메타의 허락을 받지 못해 연구용으로만 사용가능
    - [23.03.14] Alpaca 모델을 LoRA로 파인튜닝하여 Alpaca 모델을 재현한 Alpaca-LoRA 모델이 공개됨
    - [23.07.18] Meta의 Llama 2가 공개됨 (7B, 13B, 70B) → 무료로 공개 및 (거의) 상업적 이용 가능
         - 월 이용자가 7억 명 이상인 회사의 경우 라이선스 계약이 요구됨
Prompt Engineering
  • Prompt Engineering 관련 용어
    - 프롬프트(Prompt)
         - 인공지능이 수행해야 할 작업을 설명하는 자연어 텍스트
         - 모델과 최종 사용자 모두가 이해하기 쉽도록 간결하고 명확해야 함
         - 지나치게 복잡한 언어를 사용하거나 불필요한 정보를 제공하면 부정확한 결과가 나올 수 있음

    - 프롬프트 엔지니어링(Prompt Engineering)
         - 생성 모델이 이해할 수 있는 형태로 프롬프트(텍스트)를 구조화하는 과정
         -  ext-to-text 및 text-to-image 모델에 주로 사용됨

    - In-Context Learning
         - 모델이 이전에 배운 정보나 컨텍스트를 활용하여 미래의 작업을 수행하거나 이해하는 것
         - 이전 대화에서 나온 정보나 질문에 대한 답변을 기억하여 활용하는 것

  • GPT-3를 통해 알게 된 사실
    1) 입력값에 지시문을 포함시키면 그에 맞는 결과를 준다
    - 해결하고자 하는 태스크를 텍스트 형태로 입력값에 넣어주면 태스크의 정답에 해당하는 결과를 리턴함
    - 지시문에 예제를 많이 포함시킬수록 더 좋은 결과를 보임
    - 크기가 큰 LLM일수록 더 좋은 결과를 보이며, 일정 수준을 넘어서면 파인튜닝보다도 나은 결과를 보임

    2) 지시가 구체적일수록 의도에 가까운 결과를 준다
    - 모델에게 입력값을 구체적으로 지시할수록 더 정확한/의도에 맞는 결과물을 얻을 수 있음 ⇒ 프롬프트 엔지니어링
    - 다양한 목적에 맞는 프롬프트 템플릿이 공유되고, 프롬프트 엔지니어(prompt engineer)라는 새로운 직군이 출현함

Data-Centric AI 관련 연구
  • Data-Centric AI Workshop
    - Data-Centric AI 분야의 경우, 특정 학회가 존재하지 않으나 워크샵의 형태로 매년 하나씩 개최되는 중

    - DMLR @ ICML'23 (Data-centric Machine Learning Research Workshop at ICML 2023)
    - DataPerf Workshop @ ICML 2022
    - Data-Centric AI (DCAI) @ NeurIPS2021
    - Data Excellence (DEW) @ HCOMP2020
    - Machine Learning for Data – Automated Creation, Privacy, Bias @ ICML 2021
    - Economics of Privacy and Data Labor @ ICML 2020
    - Evaluating Evaluation of AI Systems (Meta-Eval) @ AAAI 2020
    - Rigorous Evaluation of AI Systems (REAIS) @ HCOMP 2020 and 2019
    - Subjectivity, Ambiguity and Disagreement (SAD) @ WWW 2019 and HCOMP 2018

  • Data-Centric Machine Learning Research’s Scope
    - 데이터셋 및 벤치마크
    - 벤치마킹 도구 및 방법
    - 데이터의 수집, 생성, 라벨링, 증강, 클렌징, 품질평가, 정렬 등에 대한 방법론 및 평가
    - 생성 모델 및 강화 학습 환경
    - 데이터의 생성과 사용에 관한 사회 윤리적 연구
    - 데이터 품질 (데이터 편향, 분산, 불확실성 등)
    - 생성 모델 및 기반 모델을 위한 프롬프트 설계
    - 대회 및 벤치마크 설계를 포함한 실험 설계 및 실증적 평가 방법론
    - 기존 데이터셋 분석, 기존 데이터셋의 중요한 문제 파악 및 사용을 위한 프레임워크

  • Data-Centric AI 관련 연구 분야
    - Opening Remarks | ML4Data – Automated Creation, Privacy, Bias @ ICML 2021
    - Opening Remarks | DCAI @ NeurIPS2021
    - DataPerf Benchmark | DataPerf Workshop @ ICML 2022
    - Prompting for Small Dataset | DMLR @ ICML 2023
  • Data-Centric AI 관련 태스크
    - 이상 탐지 및 제거 (Anomaly Detection & Removal)
    - 오류 감지 및 수정 (Error Detection & Correction)
    - 데이터 증강 (Data Augmentation) Chapter 3. 1강 p5-8 참고
    - 피쳐 엔지니어링 (Feature Engineering)
    - 컨센서스 라벨링 (Consensus Labeling)
    - 액티브 러닝 (Active Learning) Chapter 6. 6강에서 다룰 예정 
    - 커리큘럼 학습 (Curriculum Learning)

'Study > Data Centric' 카테고리의 다른 글

데이터 구축 프로세스  (0) 2025.02.18
Data-Centric AI의 미래  (1) 2025.02.18
Data-Centric AI  (1) 2025.02.17