Study/Data Centric

데이터 구축 기획서

김 도경 2025. 3. 6. 15:39
데이터 구축 기획서의 작성
  • 데이터 구축 기획서의 목적
  • 인공지능 학습용 데이터의 기획 인공지능 학습용 데이터를 구축하기 위해서는 여러가지 사항이 고려되어야 함
    - 어떤 문제를 해결하기 위한 데이터인가?
    - 어떤 방식으로 해당 데이터를 수집할 수 있는가?
    - 수집 방식에는 문제가 없는가?
    - 얼마나 많은 양의, 그리고 양질의 데이터를 수집해야 문제를 해결할 수 있는가?
    - 수집한 데이터를 어떤 방식으로 정제할 것인가?
    - 어떤 라벨을 누구로부터 어떻게 수집하는 것이 적절한가?
    - 수집하는 데에 얼마나 많은 비용이 드는가?
  • 데이터 구축 기획서의 구조
    • 데이터 구축 기획서를 작성하는 이유
      - 명확한 방향 설정 : 기획서를 작성하는 과정에서 현황에 대한 분석이 이루어지고, 해당 데이터의 필요성과 목표 등에 대한 내부 합의를 이뤄낼 수 있음
      - 리소스 및 일정 관리 : 데이터 구축에 필요한 인적⋅물적⋅금전적 자원이 어느 정도인지, 그리고 이를 언제 어떻게 활용하여 마감 내에 완수할지를 결정함
      - 품질 관리 : 데이터의 명세를 작성함으로써 목표하는 품질의 데이터를 수집하기 위한 전처리 방법 등을 미리 모색하고 리스크를 방지할 수 있음
      - 갈등 방지 : 구체적인 기획서를 작성하는 과정에서 예산 및 리소스에 대한 의견을 수합하고 향후 발생할 수 있는 문제들에 대한 사전 논의를 통해 갈등을 방지할 수 있음
데이터 구축 기획서의 구성
  • 데이터 요약
    1) 구축 목적, 방법, 규모
    - 구축 목적 ○ 연구 분야 ○ 산업 분야
    - 구축 방법 ○ 데이터 구성 ○ 데이터 수집장비 & 방법 ○ 데이터 가공방법
    - 구축 규모 ○ 데이터 수량 ○ 데이터 형태

    2) 데이터 명세서

  • 데이터 구축 개요
    1) 요약 : 각 공정의 결과물이 되는 원시, 원천, 라벨링데이터에 대한 요약 표
    2) 데이터 구축 공정 :  데이터 수집부터 모델 학습에 이르기까지 모든 단계를 흐름을 요약한 표 또는 그림

  • 데이터 수집
    1) 원시데이터 정의 : 데이터 구축 목표를 만족하도록 원시데이터의 유형, 포맷 및 규모에 대해 정의
    2) 데이터 수집 절차, 장소 및 도구 : 원시데이터 획득/수집을 위한 대상 및 수집 방법, 필요한 장소 및 도구를 기술
    3) 데이터 수집 조직 : 컨소시엄 내 데이터 수집 담당 조직 및 담당자 기술
    4) 데이터 수집 기준 : 여러 데이터 품질 기준을 고려하여 수집 기준을 정하고 이를 서술

  • 데이터 전처리
    1) 원천데이터 정의 (원시데이터 정의와 유사) 데이터 구축 목표를 만족하도록 원천데이터의 유형, 포맷 및 규모에 대해 정의
    2) 데이터 정제 절차 : 데이터 전처리를 어떻게 진행할 것인지 그 절차를 수집할 데이터마다 따로 기술
    3) 데이터 정제 방법 : 사용할 전처리 방법을 모두 표시 및 작성
    4) 데이터 정제 조직 (데이터 수집 조직과 유사) 컨소시엄 내 데이터 전처리 담당 조직 및 담당자 기술
    5) 데이터 정제 기준 (데이터 수집 기준과 유사) 데이터 전처리의 기준 및 가이드라인 첨부

  • 데이터 라벨링
    1) 라벨링데이터 정의 : 데이터의 라벨링 수량, 방식, 포맷 등을 기술
    2) 데이터 가공 절차 : 어노테이션 포맷 및 라벨링데이터 저장 형식/구조, 라벨링 절차 등에 대한 내용을 구체적으로 제시
    3) 데이터 가공 도구 : 데이터 라벨링 방식 및 라벨링 작업을 위한 도구에 대해 서술
    4) 데이터 가공 조직 (데이터 수집,정제 조직과 유사) 컨소시엄 내 데이터 전처리 담당 조직 및 담당자 기술
    5) 데이터 가공 기준 : 데이터 라벨링의 기준 및 가이드라인 작성
    6) 라벨링데이터 저장 : 원천데이터 및 어노테이션을 어떻게 저장할 것인지에 관한 방법 작성

  • 학습모델 적용
    1) 학습모델 임무 정의 : 데이터 구축 목표를 만족하는지 확인할 수 있는 학습모델의 임무 종류에 대해 정의
    2) 학습모델 후보군 선정 : 데이터 구축 목표를 만족하는지 확인할 수 있는 학습모델의 후보군을 최소 2개에서 최대 5개까지 선정

'Study > Data Centric' 카테고리의 다른 글

데이터 수집시 주의사항  (3) 2025.03.06
데이터 수집  (3) 2025.03.06
데이터 구축 프로세스  (0) 2025.02.18
Data-Centric AI의 미래  (1) 2025.02.18
Data-Centric AI가 산업에 미친 영향  (1) 2025.02.18