데이터 구축 기획서의 작성
- 데이터 구축 기획서의 목적
- 인공지능 학습용 데이터의 기획 인공지능 학습용 데이터를 구축하기 위해서는 여러가지 사항이 고려되어야 함
- 어떤 문제를 해결하기 위한 데이터인가?
- 어떤 방식으로 해당 데이터를 수집할 수 있는가?
- 수집 방식에는 문제가 없는가?
- 얼마나 많은 양의, 그리고 양질의 데이터를 수집해야 문제를 해결할 수 있는가?
- 수집한 데이터를 어떤 방식으로 정제할 것인가?
- 어떤 라벨을 누구로부터 어떻게 수집하는 것이 적절한가?
- 수집하는 데에 얼마나 많은 비용이 드는가? - 데이터 구축 기획서의 구조
- 데이터 구축 기획서를 작성하는 이유
- 명확한 방향 설정 : 기획서를 작성하는 과정에서 현황에 대한 분석이 이루어지고, 해당 데이터의 필요성과 목표 등에 대한 내부 합의를 이뤄낼 수 있음
- 리소스 및 일정 관리 : 데이터 구축에 필요한 인적⋅물적⋅금전적 자원이 어느 정도인지, 그리고 이를 언제 어떻게 활용하여 마감 내에 완수할지를 결정함
- 품질 관리 : 데이터의 명세를 작성함으로써 목표하는 품질의 데이터를 수집하기 위한 전처리 방법 등을 미리 모색하고 리스크를 방지할 수 있음
- 갈등 방지 : 구체적인 기획서를 작성하는 과정에서 예산 및 리소스에 대한 의견을 수합하고 향후 발생할 수 있는 문제들에 대한 사전 논의를 통해 갈등을 방지할 수 있음
- 데이터 구축 기획서를 작성하는 이유
데이터 구축 기획서의 구성
- 데이터 요약
1) 구축 목적, 방법, 규모
- 구축 목적 ○ 연구 분야 ○ 산업 분야
- 구축 방법 ○ 데이터 구성 ○ 데이터 수집장비 & 방법 ○ 데이터 가공방법
- 구축 규모 ○ 데이터 수량 ○ 데이터 형태
2) 데이터 명세서 - 데이터 구축 개요
1) 요약 : 각 공정의 결과물이 되는 원시, 원천, 라벨링데이터에 대한 요약 표
2) 데이터 구축 공정 : 데이터 수집부터 모델 학습에 이르기까지 모든 단계를 흐름을 요약한 표 또는 그림 - 데이터 수집
1) 원시데이터 정의 : 데이터 구축 목표를 만족하도록 원시데이터의 유형, 포맷 및 규모에 대해 정의
2) 데이터 수집 절차, 장소 및 도구 : 원시데이터 획득/수집을 위한 대상 및 수집 방법, 필요한 장소 및 도구를 기술
3) 데이터 수집 조직 : 컨소시엄 내 데이터 수집 담당 조직 및 담당자 기술
4) 데이터 수집 기준 : 여러 데이터 품질 기준을 고려하여 수집 기준을 정하고 이를 서술 - 데이터 전처리
1) 원천데이터 정의 (원시데이터 정의와 유사) 데이터 구축 목표를 만족하도록 원천데이터의 유형, 포맷 및 규모에 대해 정의
2) 데이터 정제 절차 : 데이터 전처리를 어떻게 진행할 것인지 그 절차를 수집할 데이터마다 따로 기술
3) 데이터 정제 방법 : 사용할 전처리 방법을 모두 표시 및 작성
4) 데이터 정제 조직 (데이터 수집 조직과 유사) 컨소시엄 내 데이터 전처리 담당 조직 및 담당자 기술
5) 데이터 정제 기준 (데이터 수집 기준과 유사) 데이터 전처리의 기준 및 가이드라인 첨부 - 데이터 라벨링
1) 라벨링데이터 정의 : 데이터의 라벨링 수량, 방식, 포맷 등을 기술
2) 데이터 가공 절차 : 어노테이션 포맷 및 라벨링데이터 저장 형식/구조, 라벨링 절차 등에 대한 내용을 구체적으로 제시
3) 데이터 가공 도구 : 데이터 라벨링 방식 및 라벨링 작업을 위한 도구에 대해 서술
4) 데이터 가공 조직 (데이터 수집,정제 조직과 유사) 컨소시엄 내 데이터 전처리 담당 조직 및 담당자 기술
5) 데이터 가공 기준 : 데이터 라벨링의 기준 및 가이드라인 작성
6) 라벨링데이터 저장 : 원천데이터 및 어노테이션을 어떻게 저장할 것인지에 관한 방법 작성 - 학습모델 적용
1) 학습모델 임무 정의 : 데이터 구축 목표를 만족하는지 확인할 수 있는 학습모델의 임무 종류에 대해 정의
2) 학습모델 후보군 선정 : 데이터 구축 목표를 만족하는지 확인할 수 있는 학습모델의 후보군을 최소 2개에서 최대 5개까지 선정
'Study > Data Centric' 카테고리의 다른 글
| 데이터 수집시 주의사항 (3) | 2025.03.06 |
|---|---|
| 데이터 수집 (3) | 2025.03.06 |
| 데이터 구축 프로세스 (0) | 2025.02.18 |
| Data-Centric AI의 미래 (1) | 2025.02.18 |
| Data-Centric AI가 산업에 미친 영향 (1) | 2025.02.18 |