Study/Data Centric 7

데이터 수집시 주의사항

라이선스 저작권과 라이선스- 인간의 지적 활동을 통하여 얻어진 무형적 재산(intangible property)을 ‘지식재산’이라고 하며 제작자에게 저작권, 특허권, 상표권 등의 ‘지식재산권’을 통해 그 권리를 보호함- 이 중 ‘저작권(copyright)’은 창작물에 대하여 창작자(저작자)가 창작과 동시에 취득하는 권리를 뜻함 - 저작권법은 저작물의 그 목적, 형태 등에 관계없이 모두 동일한 수준의 독점적 권리를 제공함 … “All right reserved” - 이러한 점을 보완하여, 법적인 해석이 모호해지거나 의도된 바와 다르게 사용되지 않도록 ‘라이선스(license, 이용허락)’를 통해 다른 사람이 저작물을 이용할 수 있는 권한을 부여함       - 물론 사용자는 저작자가 라이선스를 통해 정한 ..

Study/Data Centric 2025.03.06

데이터 수집

데이터 수집 방법 원시 데이터는 기본적으로 아래의 수집 방법들을 통해 수집이 됨직접 수집웹사이트로부터 크롤링오픈 소스 데이터 활용크라우드 소싱을 통한 데이터 수집수집하고자 하는 데이터의 특성 및 환경에 따라 서로 다른 방식의 수집 방법이 필요함따라서, 원하는 데이터를 구축하기 위해 둘 이상의 방식으로 원시 데이터를 수집할 수도 있음 기수집된 데이터의 활용 수집한 데이터의 양을 늘리는 방법 하나 이상의 방법으로 수집된 데이터를 아래의 방법을 통해 가공하여 양을 늘릴 수 있음 데이터 혼합 (Data Blending) - 둘 이상의 소스에서 확보한 데이터를 합쳐서 하나로 사용하는 방법 - 유사한 종류의 데이터를 합쳐서 하나의 더 큰 데이터로 만드는 방식 - 여러 종류의 데이터를 합쳐서 새로운 문제에 맞는 데이..

Study/Data Centric 2025.03.06

데이터 구축 기획서

데이터 구축 기획서의 작성데이터 구축 기획서의 목적인공지능 학습용 데이터의 기획 인공지능 학습용 데이터를 구축하기 위해서는 여러가지 사항이 고려되어야 함- 어떤 문제를 해결하기 위한 데이터인가? - 어떤 방식으로 해당 데이터를 수집할 수 있는가?- 수집 방식에는 문제가 없는가?- 얼마나 많은 양의, 그리고 양질의 데이터를 수집해야 문제를 해결할 수 있는가? - 수집한 데이터를 어떤 방식으로 정제할 것인가? - 어떤 라벨을 누구로부터 어떻게 수집하는 것이 적절한가? - 수집하는 데에 얼마나 많은 비용이 드는가?데이터 구축 기획서의 구조데이터 구축 기획서를 작성하는 이유- 명확한 방향 설정 : 기획서를 작성하는 과정에서 현황에 대한 분석이 이루어지고, 해당 데이터의 필요성과 목표 등에 대한 내부 합의를 이뤄..

Study/Data Centric 2025.03.06

데이터 구축 프로세스

데이터 구축 프로세스데이터 구축 파이프라인데이터 수집 = 원시 데이터 수집 (Raw Data Collection)- 원시 데이터 수집 방법 : 직접 수집, 웹사이트로부터 크롤링, 오픈 소스 데이터 활용, 크라우드 소싱을 통한 데이터 수집- 데이터의 타당성 검토   - 저작권을 침해하는 데이터를 포함하고 있는지 여부 검토   - 개인정보를 포함하는 데이터를 포함하는지 여부 검토   - 윤리적인 문제가 발생할 수 있는 데이터인지 여부 검토   - 데이터 다양성 확보 획득하는 데이터가 일부 범주에만 치우치지 않고 가능한 다양한 시간, 공간, 집단 수준 등을 포함하도록 구성해야 함   - 데이터 편향 방지 및 윤리 준수 인공지능 모델이 사회적 윤리를 준수할 수 있도록 비윤리적 내용, 편견, 편향된 데이터의 수집..

Study/Data Centric 2025.02.18

Data-Centric AI의 미래

Data-Centric AI의 미래Foundation Model의 시대 - 2022년 11월 30일 ChatGPT가 세상에 공개된 이후로, Data-Centric AI에서도 LLM을 중심으로 많은 변화가 시작되었음 - 즉, LLM과 같은 Foundation Model에 필요한 데이터들에 집중하기 시작!Foundation Model- 라벨링이 되어 있지 않은 대규모 데이터 기반으로 학습된 모델로, 다양한 다운스트림 문제에 적응시켜 사용할 수 있음Data-Centric AI의 미래 - 이러한 Foundation Model의 시대를 맞이하여, Data-Centric AI에서 유의 깊게 살펴봐야 할 키워드는 다음과 같음Multilingual Unilingual LM - 트랜스포머 이전에는 둘 이상의 언어로 이루..

Study/Data Centric 2025.02.18

Data-Centric AI가 산업에 미친 영향

Pretraining & Fine-Tuning트랜스포머 기반 언어 모델- 트랜스포머의 인코더/디코더 구조를 이용한 언어 모델이 기존의 LSTM 계열을 압도하는 성능을 보이면서, - 웬만한 언어 모델은 모두 트랜스포머 계열로 대체되고 NLP 분야의 연구가 활발히 이루어짐거대 언어 모델 (Large Language Model, LLM) - 여러 연구를 통해 트랜스포머 계열은 모델 파라미터가 많을수록 더 일반화된 좋은 성능을 가짐을 실증적으로 보임- 그러나 이를 위해서 많은 데이터와 연산 자원이 필요하며, 일부 초거대 IT기업만이 이를 가능케 함파인튜닝 (Fine-Tuning) - 일반적인 기업, 개인, 연구자들은 이렇게 사전학습된 LLM을 자신의 태스크에 맞게 리폼하는 파인튜닝을 통해 언어 모델을 이용함 파..

Study/Data Centric 2025.02.18

Data-Centric AI

Data-Centric AI데이터의 중요성- AI System = Code + Data - 데이터는 곧 모델을 학습하는 데에 필요한 재료 - 동일한 데이터에 대해 서로 다른 어노테이션/라벨을 다는 경우가 발생 ⇒ 노이즈 발생Data-Centric AI의 정의- 2020년대에 들어서 주목받기 시작한 AI 접근 방식으로, 개발 및 운용의 관점에서 데이터를 중심으로 접근하는 방식-  Model-Centric AI : 과거 그리고 지금도 여전히 가장 주로 사용되는 AI 접근 방식으로, 개발 및 운용의 관점에서 모델을 중심으로 접근하는 방식 Model-Centric AI vs. Data-Centric AI코드를 개선하면 Model-Centric AI, 데이터를 개선하면 Data-Centric AI라고 이해할 수 ..

Study/Data Centric 2025.02.17