Data-Centric AI의 미래
- Foundation Model의 시대
- 2022년 11월 30일 ChatGPT가 세상에 공개된 이후로, Data-Centric AI에서도 LLM을 중심으로 많은 변화가 시작되었음
- 즉, LLM과 같은 Foundation Model에 필요한 데이터들에 집중하기 시작! - Foundation Model
- 라벨링이 되어 있지 않은 대규모 데이터 기반으로 학습된 모델로, 다양한 다운스트림 문제에 적응시켜 사용할 수 있음 - Data-Centric AI의 미래
- 이러한 Foundation Model의 시대를 맞이하여, Data-Centric AI에서 유의 깊게 살펴봐야 할 키워드는 다음과 같음
Multilingual
- Unilingual LM
- 트랜스포머 이전에는 둘 이상의 언어로 이루어진 데이터나 이를 학습한 모델이 거의 없었음
1) 과거에는 LSTM 기반의 seq2seq 모델이 주를 이루었음
- 여러 언어를 하나로 인코딩하기에는 LSTM 모델의 학습이 매우 오래 걸렸고
- 모델의 사이즈 또한 지금의 트랜스포머만큼 무한정 키울 수 없었음
2) 기계 번역을 제외하고 다중언어에 대한 수요 자체가 적었음
- 데이터 내에 두 언어만 존재해도 충분히 ‘다중언어 데이터’라고 칭할 수 있었음
예) Multi30K: Multilingual English-German Image Descriptions - Multilingual LLM
- 트랜스포머 이후로는 다중언어 모델에 대해 꾸준히 연구되어 왔으나, 여전히 Unilingual이 대세였음
- 그러나 LLM을 통해 Multilingual의 성능이 Unilingual을 뛰어넘기 시작하면서, 점점 Multilingual이 기본이 되어가는 추세임 - Multilingual Data
- MLQA (MultiLingual Question Answering)
- Multilingual LibriSpeech
- GEM Benchmark - Multilingual Model
- BLOOM @ BigScience
- PaLM 2 @ Google
- MMS (Massively Multilingual Speech) @ Meta
Multimodal
- Unimodal & Multimodal LM
- 과거 대부분의 데이터와 모델은 높은 성능을 담보하기 위해 하나의 태스크 또는 도메인에 집중하여 구축되어 왔음
- 물론 다양한 작업을 수행할 수 있는 Multimodal에 대한 연구도 계속되어 왔으나, 성능이 그리 높지 않았음
- 예) TextVQA : 이미지 내의 텍스트 정보에 대한 질의 응답 데이터 - Multimodal LLM
- 하지만 LLM을 기반으로 확장된 Foundation Model들이 등장하면서 상황이 반전되기 시작함 - Multimodal Data
- VQA (Visual Question Answering) v2.0
- VidLN (Video Localized Narratives)
- VDialogUE - Multimodal Model
- GPT-4 @ OpenAI
- PaLM-E @ Google
- KOSMOS-2 @ Microsoft
Synthetic Data
- Synthetic Data
- 실제 세상으로부터 수집된 것이 아닌 알고리즘이나 시뮬레이션을 통해 생성된 인위적인 데이터 - Synthetic Data의 가능성
- GPT-4의 결과를 보면, 다양한 분야의 작업을 사람만큼이나 혹은 사람보다도 더 잘 수행할 수 있다는 것을 확인할 수 있음
- 이는 곧 모델이 생성하는 데이터를 가지고 새로운 모델을 다시 학습할 수 있는 시대가 왔다는 것으로 볼 수 있음 - Synthetic Data의 현재
- 이미 ChatGPT를 통해서 생성한 데이터가 사람이 생성한 데이터보다 우수하다는 결과가 나오고 있음 - Synthetic Data의 장점
- 현실 데이터와 달리 수집 및 라벨링에 시간이나 비용이 들지 않음
- 이미지 라벨링 비용 : 6 달러, 이미지 합성 비용 : 6 센트
- 합성 데이터는 실제 세계에서 발생하기 어려운 조건이나 아직 확인되지 않은 조건을 대응하는 데에 도움을 줌
- 현실 데이터는 여러 우연에 의해 만들어지기 때문에, 실제 세계에서 가능한 모든 조건을 다 포함하지는 못함
- 개인정보* 침해 문제가 발생하지 않으며, 데이터 편향**으로부터 비교적 자유로움 - Synthetic Data의 미래
- 생성 모델의 발전과 더불어 앞으로는 Synthetic Data에 대한 사용 빈도가 점점 더 높아질 것으로 예상됨 - 합성 데이터 사례
- 자율 주행 시뮬레이션
- 자율주행 분야는 기존에도 합성 데이터가 사용되던 분야로, 이미 가상 환경에서 자율주행 시뮬레이션이 진행되어 왔음
- VQA 데이터 생성
- 이미지-캡션 데이터를 통해 VQA 데이터를 다량 생성하고, 이를 사용하여 VQA 모델의 성능을 높인 연구
- 오디오 데이터 생성
- 이제는 음악이나 음성과 같은 오디오 데이터도 텍스트 입력을 통해 생성하는 것이 가능해짐
'Study > Data Centric' 카테고리의 다른 글
데이터 구축 프로세스 (0) | 2025.02.18 |
---|---|
Data-Centric AI가 산업에 미친 영향 (1) | 2025.02.18 |
Data-Centric AI (1) | 2025.02.17 |