Study 117

데이터 수집시 주의사항

라이선스 저작권과 라이선스- 인간의 지적 활동을 통하여 얻어진 무형적 재산(intangible property)을 ‘지식재산’이라고 하며 제작자에게 저작권, 특허권, 상표권 등의 ‘지식재산권’을 통해 그 권리를 보호함- 이 중 ‘저작권(copyright)’은 창작물에 대하여 창작자(저작자)가 창작과 동시에 취득하는 권리를 뜻함 - 저작권법은 저작물의 그 목적, 형태 등에 관계없이 모두 동일한 수준의 독점적 권리를 제공함 … “All right reserved” - 이러한 점을 보완하여, 법적인 해석이 모호해지거나 의도된 바와 다르게 사용되지 않도록 ‘라이선스(license, 이용허락)’를 통해 다른 사람이 저작물을 이용할 수 있는 권한을 부여함       - 물론 사용자는 저작자가 라이선스를 통해 정한 ..

Study/Data Centric 2025.03.06

데이터 수집

데이터 수집 방법 원시 데이터는 기본적으로 아래의 수집 방법들을 통해 수집이 됨직접 수집웹사이트로부터 크롤링오픈 소스 데이터 활용크라우드 소싱을 통한 데이터 수집수집하고자 하는 데이터의 특성 및 환경에 따라 서로 다른 방식의 수집 방법이 필요함따라서, 원하는 데이터를 구축하기 위해 둘 이상의 방식으로 원시 데이터를 수집할 수도 있음 기수집된 데이터의 활용 수집한 데이터의 양을 늘리는 방법 하나 이상의 방법으로 수집된 데이터를 아래의 방법을 통해 가공하여 양을 늘릴 수 있음 데이터 혼합 (Data Blending) - 둘 이상의 소스에서 확보한 데이터를 합쳐서 하나로 사용하는 방법 - 유사한 종류의 데이터를 합쳐서 하나의 더 큰 데이터로 만드는 방식 - 여러 종류의 데이터를 합쳐서 새로운 문제에 맞는 데이..

Study/Data Centric 2025.03.06

데이터 구축 기획서

데이터 구축 기획서의 작성데이터 구축 기획서의 목적인공지능 학습용 데이터의 기획 인공지능 학습용 데이터를 구축하기 위해서는 여러가지 사항이 고려되어야 함- 어떤 문제를 해결하기 위한 데이터인가? - 어떤 방식으로 해당 데이터를 수집할 수 있는가?- 수집 방식에는 문제가 없는가?- 얼마나 많은 양의, 그리고 양질의 데이터를 수집해야 문제를 해결할 수 있는가? - 수집한 데이터를 어떤 방식으로 정제할 것인가? - 어떤 라벨을 누구로부터 어떻게 수집하는 것이 적절한가? - 수집하는 데에 얼마나 많은 비용이 드는가?데이터 구축 기획서의 구조데이터 구축 기획서를 작성하는 이유- 명확한 방향 설정 : 기획서를 작성하는 과정에서 현황에 대한 분석이 이루어지고, 해당 데이터의 필요성과 목표 등에 대한 내부 합의를 이뤄..

Study/Data Centric 2025.03.06

데이터 구축 프로세스

데이터 구축 프로세스데이터 구축 파이프라인데이터 수집 = 원시 데이터 수집 (Raw Data Collection)- 원시 데이터 수집 방법 : 직접 수집, 웹사이트로부터 크롤링, 오픈 소스 데이터 활용, 크라우드 소싱을 통한 데이터 수집- 데이터의 타당성 검토   - 저작권을 침해하는 데이터를 포함하고 있는지 여부 검토   - 개인정보를 포함하는 데이터를 포함하는지 여부 검토   - 윤리적인 문제가 발생할 수 있는 데이터인지 여부 검토   - 데이터 다양성 확보 획득하는 데이터가 일부 범주에만 치우치지 않고 가능한 다양한 시간, 공간, 집단 수준 등을 포함하도록 구성해야 함   - 데이터 편향 방지 및 윤리 준수 인공지능 모델이 사회적 윤리를 준수할 수 있도록 비윤리적 내용, 편견, 편향된 데이터의 수집..

Study/Data Centric 2025.02.18

Data-Centric AI의 미래

Data-Centric AI의 미래Foundation Model의 시대 - 2022년 11월 30일 ChatGPT가 세상에 공개된 이후로, Data-Centric AI에서도 LLM을 중심으로 많은 변화가 시작되었음 - 즉, LLM과 같은 Foundation Model에 필요한 데이터들에 집중하기 시작!Foundation Model- 라벨링이 되어 있지 않은 대규모 데이터 기반으로 학습된 모델로, 다양한 다운스트림 문제에 적응시켜 사용할 수 있음Data-Centric AI의 미래 - 이러한 Foundation Model의 시대를 맞이하여, Data-Centric AI에서 유의 깊게 살펴봐야 할 키워드는 다음과 같음Multilingual Unilingual LM - 트랜스포머 이전에는 둘 이상의 언어로 이루..

Study/Data Centric 2025.02.18

Data-Centric AI가 산업에 미친 영향

Pretraining & Fine-Tuning트랜스포머 기반 언어 모델- 트랜스포머의 인코더/디코더 구조를 이용한 언어 모델이 기존의 LSTM 계열을 압도하는 성능을 보이면서, - 웬만한 언어 모델은 모두 트랜스포머 계열로 대체되고 NLP 분야의 연구가 활발히 이루어짐거대 언어 모델 (Large Language Model, LLM) - 여러 연구를 통해 트랜스포머 계열은 모델 파라미터가 많을수록 더 일반화된 좋은 성능을 가짐을 실증적으로 보임- 그러나 이를 위해서 많은 데이터와 연산 자원이 필요하며, 일부 초거대 IT기업만이 이를 가능케 함파인튜닝 (Fine-Tuning) - 일반적인 기업, 개인, 연구자들은 이렇게 사전학습된 LLM을 자신의 태스크에 맞게 리폼하는 파인튜닝을 통해 언어 모델을 이용함 파..

Study/Data Centric 2025.02.18

Data-Centric AI

Data-Centric AI데이터의 중요성- AI System = Code + Data - 데이터는 곧 모델을 학습하는 데에 필요한 재료 - 동일한 데이터에 대해 서로 다른 어노테이션/라벨을 다는 경우가 발생 ⇒ 노이즈 발생Data-Centric AI의 정의- 2020년대에 들어서 주목받기 시작한 AI 접근 방식으로, 개발 및 운용의 관점에서 데이터를 중심으로 접근하는 방식-  Model-Centric AI : 과거 그리고 지금도 여전히 가장 주로 사용되는 AI 접근 방식으로, 개발 및 운용의 관점에서 모델을 중심으로 접근하는 방식 Model-Centric AI vs. Data-Centric AI코드를 개선하면 Model-Centric AI, 데이터를 개선하면 Data-Centric AI라고 이해할 수 ..

Study/Data Centric 2025.02.17

REALM (Retrieval-Augmented Language Model)

REALM (Retrieval-Augmented Language Model) 개요질문 응답 (Question Answering): REALM은 주로 질문 응답 시스템에서 뛰어난 성능을 보이는 모델- 사용자의 질문을 받아 관련된 문서를 검색한 후, 이를 바탕으로 답변을 생성하는 방식으로 동작Retrieve-then-predict: REALM의 핵심은 검색 후 예측입니다. 먼저 관련된 정보를 검색하고, 그 후 검색된 정보를 바탕으로 답변을 예측하는 방식으로 구성- 이는 정보 검색과 텍스트 생성을 분리하여 처리하는 방식Neural Knowledge Retriever: REALM은 신경망  기반 지식 검색기를 사용하여, 질의에 대해 관련된 지식을 자동으로 검색- 이 검색기는 대규모 문서 집합에서 필요한 정보를 ..

Study/RAG 2025.02.09

kNN-LM

kNN-LMk-최근접 이웃을 기반으로 한 언어 모델kNN-LM은 k-최근접 이웃(k-NN) 알고리즘을 활용하여, 텍스트를 생성할 때 유사한 문장을 검색하고 이를 바탕으로 생성하는 방법입니다.기존 RAG와 달리, kNN-LM은 문장 간의 유사성을 비교하여 가장 적합한 문장을 선택하고, 이를 자연스러운 언어로 생성하는 방식입니다. 이 모델은 문서 내에서의 유사성을 찾아내는 데 강력하며, 생성된 답변이 검색된 문서와 밀접하게 연관될 수 있도록 합니다.kNN-LM은 생성된 텍스트의 질을 높이는 데 유용하며, 특정 문서나 구절의 정확성을 반영할 수 있습니다.kNN-LM Datastore kNN-LM Datastore의 주요 기능 - 정보 저장: Datastore는 다양한 문서나 텍스트 조각을 포함     -   ..

Study/RAG 2025.02.09

RAG (Retrieval-Augmented Generation)

RAG (Retrieval-Augmented Generation) 개요검색과 생성을 결합하여 언어 모델의 성능을 향상시키는 기술기존의 언어 모델은 주어진 데이터에서 학습한 정보만을 기반으로 답변을 생성하지만, RAG는 외부 데이터베이스나 문서에서 정보를 검색하여 이를 생성 과정에 반영이 방식은 모델이 더 정확하고 풍부한 정보를 바탕으로 답변을 생성할 수 있게 함RAG의 주요 특징은 정보 검색과 텍스트 생성을 결합하여, 새로운 정보나 추가적인 지식을 바탕으로 더 나은 성능을 발휘할 수 있다는 점다양한 NLP 작업에서 성능을 크게 향상시킬 수 있어 질문 응답, 문서 생성, 요약 등에 효과적임RAG의 핵심 논문들 (Fundamental Papers in RAG) - "RAG: Retrieval-Augmente..

Study/RAG 2025.02.09