Study/Data Centric

Data-Centric AI의 미래

김 도경 2025. 2. 18. 14:50
Data-Centric AI의 미래
  • Foundation Model의 시대
    - 2022년 11월 30일 ChatGPT가 세상에 공개된 이후로, Data-Centric AI에서도 LLM을 중심으로 많은 변화가 시작되었음
    - 즉, LLM과 같은 Foundation Model에 필요한 데이터들에 집중하기 시작!
  • Foundation Model
    - 라벨링이 되어 있지 않은 대규모 데이터 기반으로 학습된 모델로, 다양한 다운스트림 문제에 적응시켜 사용할 수 있음

  • Data-Centric AI의 미래
    - 이러한 Foundation Model의 시대를 맞이하여, Data-Centric AI에서 유의 깊게 살펴봐야 할 키워드는 다음과 같음
Multilingual

 

  • Unilingual LM
    - 트랜스포머 이전에는 둘 이상의 언어로 이루어진 데이터나 이를 학습한 모델이 거의 없었음

    1) 과거에는 LSTM 기반의 seq2seq 모델이 주를 이루었음
    - 여러 언어를 하나로 인코딩하기에는 LSTM 모델의 학습이 매우 오래 걸렸고
    - 모델의 사이즈 또한 지금의 트랜스포머만큼 무한정 키울 수 없었음

    2) 기계 번역을 제외하고 다중언어에 대한 수요 자체가 적었음
    - 데이터 내에 두 언어만 존재해도 충분히 ‘다중언어 데이터’라고 칭할 수 있었음
    예) Multi30K: Multilingual English-German Image Descriptions

  • Multilingual LLM
    - 트랜스포머 이후로는 다중언어 모델에 대해 꾸준히 연구되어 왔으나, 여전히 Unilingual이 대세였음
    - 그러나 LLM을 통해 Multilingual의 성능이 Unilingual을 뛰어넘기 시작하면서, 점점 Multilingual이 기본이 되어가는 추세임

  • Multilingual Data
    - MLQA (MultiLingual Question Answering)
    - Multilingual LibriSpeech
    - GEM Benchmark

  • Multilingual Model
    - BLOOM @ BigScience
    - PaLM 2 @ Google
    - MMS (Massively Multilingual Speech) @ Meta
Multimodal

 

  • Unimodal & Multimodal LM
    - 과거 대부분의 데이터와 모델은 높은 성능을 담보하기 위해 하나의 태스크 또는 도메인에 집중하여 구축되어 왔음
    - 물론 다양한 작업을 수행할 수 있는 Multimodal에 대한 연구도 계속되어 왔으나, 성능이 그리 높지 않았음
    - 예) TextVQA : 이미지 내의 텍스트 정보에 대한 질의 응답 데이터

  • Multimodal LLM
    - 하지만 LLM을 기반으로 확장된 Foundation Model들이 등장하면서 상황이 반전되기 시작함

  • Multimodal Data
    - VQA (Visual Question Answering) v2.0
    - VidLN (Video Localized Narratives)
    - VDialogUE

  • Multimodal Model
    - GPT-4 @ OpenAI
    - PaLM-E @ Google
    - KOSMOS-2 @ Microsoft
Synthetic Data
  • Synthetic Data
    - 실제 세상으로부터 수집된 것이 아닌 알고리즘이나 시뮬레이션을 통해 생성된 인위적인 데이터

  • Synthetic Data의 가능성
    - GPT-4의 결과를 보면, 다양한 분야의 작업을 사람만큼이나 혹은 사람보다도 더 잘 수행할 수 있다는 것을 확인할 수 있음
    - 이는 곧 모델이 생성하는 데이터를 가지고 새로운 모델을 다시 학습할 수 있는 시대가 왔다는 것으로 볼 수 있음

  • Synthetic Data의 현재
    - 이미 ChatGPT를 통해서 생성한 데이터가 사람이 생성한 데이터보다 우수하다는 결과가 나오고 있음

  • Synthetic Data의 장점
    - 현실 데이터와 달리 수집 및 라벨링에 시간이나 비용이 들지 않음
           - 이미지 라벨링 비용 : 6 달러, 이미지 합성 비용 : 6 센트
    - 합성 데이터는 실제 세계에서 발생하기 어려운 조건이나 아직 확인되지 않은 조건을 대응하는 데에 도움을 줌
           - 현실 데이터는 여러 우연에 의해 만들어지기 때문에, 실제 세계에서 가능한 모든 조건을 다 포함하지는 못함
    - 개인정보* 침해 문제가 발생하지 않으며, 데이터 편향**으로부터 비교적 자유로움

  • Synthetic Data의 미래
    - 생성 모델의 발전과 더불어 앞으로는 Synthetic Data에 대한 사용 빈도가 점점 더 높아질 것으로 예상됨

  • 합성 데이터 사례
    - 자율 주행 시뮬레이션
          - 자율주행 분야는 기존에도 합성 데이터가 사용되던 분야로, 이미 가상 환경에서 자율주행 시뮬레이션이 진행되어 왔음
    - VQA 데이터 생성
          - 이미지-캡션 데이터를 통해 VQA 데이터를 다량 생성하고, 이를 사용하여 VQA 모델의 성능을 높인 연구
    - 오디오 데이터 생성
          - 이제는 음악이나 음성과 같은 오디오 데이터도 텍스트 입력을 통해 생성하는 것이 가능해짐

'Study > Data Centric' 카테고리의 다른 글

데이터 구축 프로세스  (0) 2025.02.18
Data-Centric AI가 산업에 미친 영향  (1) 2025.02.18
Data-Centric AI  (1) 2025.02.17