2025/03/06 3

데이터 수집시 주의사항

라이선스 저작권과 라이선스- 인간의 지적 활동을 통하여 얻어진 무형적 재산(intangible property)을 ‘지식재산’이라고 하며 제작자에게 저작권, 특허권, 상표권 등의 ‘지식재산권’을 통해 그 권리를 보호함- 이 중 ‘저작권(copyright)’은 창작물에 대하여 창작자(저작자)가 창작과 동시에 취득하는 권리를 뜻함 - 저작권법은 저작물의 그 목적, 형태 등에 관계없이 모두 동일한 수준의 독점적 권리를 제공함 … “All right reserved” - 이러한 점을 보완하여, 법적인 해석이 모호해지거나 의도된 바와 다르게 사용되지 않도록 ‘라이선스(license, 이용허락)’를 통해 다른 사람이 저작물을 이용할 수 있는 권한을 부여함       - 물론 사용자는 저작자가 라이선스를 통해 정한 ..

Study/Data Centric 2025.03.06

데이터 수집

데이터 수집 방법 원시 데이터는 기본적으로 아래의 수집 방법들을 통해 수집이 됨직접 수집웹사이트로부터 크롤링오픈 소스 데이터 활용크라우드 소싱을 통한 데이터 수집수집하고자 하는 데이터의 특성 및 환경에 따라 서로 다른 방식의 수집 방법이 필요함따라서, 원하는 데이터를 구축하기 위해 둘 이상의 방식으로 원시 데이터를 수집할 수도 있음 기수집된 데이터의 활용 수집한 데이터의 양을 늘리는 방법 하나 이상의 방법으로 수집된 데이터를 아래의 방법을 통해 가공하여 양을 늘릴 수 있음 데이터 혼합 (Data Blending) - 둘 이상의 소스에서 확보한 데이터를 합쳐서 하나로 사용하는 방법 - 유사한 종류의 데이터를 합쳐서 하나의 더 큰 데이터로 만드는 방식 - 여러 종류의 데이터를 합쳐서 새로운 문제에 맞는 데이..

Study/Data Centric 2025.03.06

데이터 구축 기획서

데이터 구축 기획서의 작성데이터 구축 기획서의 목적인공지능 학습용 데이터의 기획 인공지능 학습용 데이터를 구축하기 위해서는 여러가지 사항이 고려되어야 함- 어떤 문제를 해결하기 위한 데이터인가? - 어떤 방식으로 해당 데이터를 수집할 수 있는가?- 수집 방식에는 문제가 없는가?- 얼마나 많은 양의, 그리고 양질의 데이터를 수집해야 문제를 해결할 수 있는가? - 수집한 데이터를 어떤 방식으로 정제할 것인가? - 어떤 라벨을 누구로부터 어떻게 수집하는 것이 적절한가? - 수집하는 데에 얼마나 많은 비용이 드는가?데이터 구축 기획서의 구조데이터 구축 기획서를 작성하는 이유- 명확한 방향 설정 : 기획서를 작성하는 과정에서 현황에 대한 분석이 이루어지고, 해당 데이터의 필요성과 목표 등에 대한 내부 합의를 이뤄..

Study/Data Centric 2025.03.06