Study/Data Centric 4

데이터 구축 프로세스

데이터 구축 프로세스데이터 구축 파이프라인데이터 수집 = 원시 데이터 수집 (Raw Data Collection)- 원시 데이터 수집 방법 : 직접 수집, 웹사이트로부터 크롤링, 오픈 소스 데이터 활용, 크라우드 소싱을 통한 데이터 수집- 데이터의 타당성 검토   - 저작권을 침해하는 데이터를 포함하고 있는지 여부 검토   - 개인정보를 포함하는 데이터를 포함하는지 여부 검토   - 윤리적인 문제가 발생할 수 있는 데이터인지 여부 검토   - 데이터 다양성 확보 획득하는 데이터가 일부 범주에만 치우치지 않고 가능한 다양한 시간, 공간, 집단 수준 등을 포함하도록 구성해야 함   - 데이터 편향 방지 및 윤리 준수 인공지능 모델이 사회적 윤리를 준수할 수 있도록 비윤리적 내용, 편견, 편향된 데이터의 수집..

Study/Data Centric 2025.02.18

Data-Centric AI의 미래

Data-Centric AI의 미래Foundation Model의 시대 - 2022년 11월 30일 ChatGPT가 세상에 공개된 이후로, Data-Centric AI에서도 LLM을 중심으로 많은 변화가 시작되었음 - 즉, LLM과 같은 Foundation Model에 필요한 데이터들에 집중하기 시작!Foundation Model- 라벨링이 되어 있지 않은 대규모 데이터 기반으로 학습된 모델로, 다양한 다운스트림 문제에 적응시켜 사용할 수 있음Data-Centric AI의 미래 - 이러한 Foundation Model의 시대를 맞이하여, Data-Centric AI에서 유의 깊게 살펴봐야 할 키워드는 다음과 같음Multilingual Unilingual LM - 트랜스포머 이전에는 둘 이상의 언어로 이루..

Study/Data Centric 2025.02.18

Data-Centric AI가 산업에 미친 영향

Pretraining & Fine-Tuning트랜스포머 기반 언어 모델- 트랜스포머의 인코더/디코더 구조를 이용한 언어 모델이 기존의 LSTM 계열을 압도하는 성능을 보이면서, - 웬만한 언어 모델은 모두 트랜스포머 계열로 대체되고 NLP 분야의 연구가 활발히 이루어짐거대 언어 모델 (Large Language Model, LLM) - 여러 연구를 통해 트랜스포머 계열은 모델 파라미터가 많을수록 더 일반화된 좋은 성능을 가짐을 실증적으로 보임- 그러나 이를 위해서 많은 데이터와 연산 자원이 필요하며, 일부 초거대 IT기업만이 이를 가능케 함파인튜닝 (Fine-Tuning) - 일반적인 기업, 개인, 연구자들은 이렇게 사전학습된 LLM을 자신의 태스크에 맞게 리폼하는 파인튜닝을 통해 언어 모델을 이용함 파..

Study/Data Centric 2025.02.18

Data-Centric AI

Data-Centric AI데이터의 중요성- AI System = Code + Data - 데이터는 곧 모델을 학습하는 데에 필요한 재료 - 동일한 데이터에 대해 서로 다른 어노테이션/라벨을 다는 경우가 발생 ⇒ 노이즈 발생Data-Centric AI의 정의- 2020년대에 들어서 주목받기 시작한 AI 접근 방식으로, 개발 및 운용의 관점에서 데이터를 중심으로 접근하는 방식-  Model-Centric AI : 과거 그리고 지금도 여전히 가장 주로 사용되는 AI 접근 방식으로, 개발 및 운용의 관점에서 모델을 중심으로 접근하는 방식 Model-Centric AI vs. Data-Centric AI코드를 개선하면 Model-Centric AI, 데이터를 개선하면 Data-Centric AI라고 이해할 수 ..

Study/Data Centric 2025.02.17