전체 글 168

데이터 수집시 주의사항

라이선스 저작권과 라이선스- 인간의 지적 활동을 통하여 얻어진 무형적 재산(intangible property)을 ‘지식재산’이라고 하며 제작자에게 저작권, 특허권, 상표권 등의 ‘지식재산권’을 통해 그 권리를 보호함- 이 중 ‘저작권(copyright)’은 창작물에 대하여 창작자(저작자)가 창작과 동시에 취득하는 권리를 뜻함 - 저작권법은 저작물의 그 목적, 형태 등에 관계없이 모두 동일한 수준의 독점적 권리를 제공함 … “All right reserved” - 이러한 점을 보완하여, 법적인 해석이 모호해지거나 의도된 바와 다르게 사용되지 않도록 ‘라이선스(license, 이용허락)’를 통해 다른 사람이 저작물을 이용할 수 있는 권한을 부여함       - 물론 사용자는 저작자가 라이선스를 통해 정한 ..

Study/Data Centric 2025.03.06

데이터 수집

데이터 수집 방법 원시 데이터는 기본적으로 아래의 수집 방법들을 통해 수집이 됨직접 수집웹사이트로부터 크롤링오픈 소스 데이터 활용크라우드 소싱을 통한 데이터 수집수집하고자 하는 데이터의 특성 및 환경에 따라 서로 다른 방식의 수집 방법이 필요함따라서, 원하는 데이터를 구축하기 위해 둘 이상의 방식으로 원시 데이터를 수집할 수도 있음 기수집된 데이터의 활용 수집한 데이터의 양을 늘리는 방법 하나 이상의 방법으로 수집된 데이터를 아래의 방법을 통해 가공하여 양을 늘릴 수 있음 데이터 혼합 (Data Blending) - 둘 이상의 소스에서 확보한 데이터를 합쳐서 하나로 사용하는 방법 - 유사한 종류의 데이터를 합쳐서 하나의 더 큰 데이터로 만드는 방식 - 여러 종류의 데이터를 합쳐서 새로운 문제에 맞는 데이..

Study/Data Centric 2025.03.06

데이터 구축 기획서

데이터 구축 기획서의 작성데이터 구축 기획서의 목적인공지능 학습용 데이터의 기획 인공지능 학습용 데이터를 구축하기 위해서는 여러가지 사항이 고려되어야 함- 어떤 문제를 해결하기 위한 데이터인가? - 어떤 방식으로 해당 데이터를 수집할 수 있는가?- 수집 방식에는 문제가 없는가?- 얼마나 많은 양의, 그리고 양질의 데이터를 수집해야 문제를 해결할 수 있는가? - 수집한 데이터를 어떤 방식으로 정제할 것인가? - 어떤 라벨을 누구로부터 어떻게 수집하는 것이 적절한가? - 수집하는 데에 얼마나 많은 비용이 드는가?데이터 구축 기획서의 구조데이터 구축 기획서를 작성하는 이유- 명확한 방향 설정 : 기획서를 작성하는 과정에서 현황에 대한 분석이 이루어지고, 해당 데이터의 필요성과 목표 등에 대한 내부 합의를 이뤄..

Study/Data Centric 2025.03.06

데이터 구축 프로세스

데이터 구축 프로세스데이터 구축 파이프라인데이터 수집 = 원시 데이터 수집 (Raw Data Collection)- 원시 데이터 수집 방법 : 직접 수집, 웹사이트로부터 크롤링, 오픈 소스 데이터 활용, 크라우드 소싱을 통한 데이터 수집- 데이터의 타당성 검토   - 저작권을 침해하는 데이터를 포함하고 있는지 여부 검토   - 개인정보를 포함하는 데이터를 포함하는지 여부 검토   - 윤리적인 문제가 발생할 수 있는 데이터인지 여부 검토   - 데이터 다양성 확보 획득하는 데이터가 일부 범주에만 치우치지 않고 가능한 다양한 시간, 공간, 집단 수준 등을 포함하도록 구성해야 함   - 데이터 편향 방지 및 윤리 준수 인공지능 모델이 사회적 윤리를 준수할 수 있도록 비윤리적 내용, 편견, 편향된 데이터의 수집..

Study/Data Centric 2025.02.18

Data-Centric AI의 미래

Data-Centric AI의 미래Foundation Model의 시대 - 2022년 11월 30일 ChatGPT가 세상에 공개된 이후로, Data-Centric AI에서도 LLM을 중심으로 많은 변화가 시작되었음 - 즉, LLM과 같은 Foundation Model에 필요한 데이터들에 집중하기 시작!Foundation Model- 라벨링이 되어 있지 않은 대규모 데이터 기반으로 학습된 모델로, 다양한 다운스트림 문제에 적응시켜 사용할 수 있음Data-Centric AI의 미래 - 이러한 Foundation Model의 시대를 맞이하여, Data-Centric AI에서 유의 깊게 살펴봐야 할 키워드는 다음과 같음Multilingual Unilingual LM - 트랜스포머 이전에는 둘 이상의 언어로 이루..

Study/Data Centric 2025.02.18

Data-Centric AI가 산업에 미친 영향

Pretraining & Fine-Tuning트랜스포머 기반 언어 모델- 트랜스포머의 인코더/디코더 구조를 이용한 언어 모델이 기존의 LSTM 계열을 압도하는 성능을 보이면서, - 웬만한 언어 모델은 모두 트랜스포머 계열로 대체되고 NLP 분야의 연구가 활발히 이루어짐거대 언어 모델 (Large Language Model, LLM) - 여러 연구를 통해 트랜스포머 계열은 모델 파라미터가 많을수록 더 일반화된 좋은 성능을 가짐을 실증적으로 보임- 그러나 이를 위해서 많은 데이터와 연산 자원이 필요하며, 일부 초거대 IT기업만이 이를 가능케 함파인튜닝 (Fine-Tuning) - 일반적인 기업, 개인, 연구자들은 이렇게 사전학습된 LLM을 자신의 태스크에 맞게 리폼하는 파인튜닝을 통해 언어 모델을 이용함 파..

Study/Data Centric 2025.02.18

Data-Centric AI

Data-Centric AI데이터의 중요성- AI System = Code + Data - 데이터는 곧 모델을 학습하는 데에 필요한 재료 - 동일한 데이터에 대해 서로 다른 어노테이션/라벨을 다는 경우가 발생 ⇒ 노이즈 발생Data-Centric AI의 정의- 2020년대에 들어서 주목받기 시작한 AI 접근 방식으로, 개발 및 운용의 관점에서 데이터를 중심으로 접근하는 방식-  Model-Centric AI : 과거 그리고 지금도 여전히 가장 주로 사용되는 AI 접근 방식으로, 개발 및 운용의 관점에서 모델을 중심으로 접근하는 방식 Model-Centric AI vs. Data-Centric AI코드를 개선하면 Model-Centric AI, 데이터를 개선하면 Data-Centric AI라고 이해할 수 ..

Study/Data Centric 2025.02.17

[AI 부트캠프] 부트캠프 고민하는 당신을 위해 –7문 7답 솔직하게!

AI 부트캠프를 시작한 지도 벌써 몇 개월이 지났어요. 처음 지원할 때는 정말 고민이 많았고, 내가 이 길을 제대로 가고 있는지 확신이 서지 않았어요.하지만 지금 돌아보면, 부트캠프를 선택한 것은 제 인생에서 가장 의미 있는 결정 중 하나였다고 자신 있게 말할 수 있어요. 처음에는 단순히 "AI를 배워야겠다"는 생각으로 시작했지만, 시간이 지나면서 이 과정이 단순한 학습이 아니라 진로를 명확히 하고, 실무 경험을 쌓고, 성장하는 과정이었다는 걸 깨달았어요.부트캠프를 하면서 겪었던 경험과 배운 것들을 정리해보면서, 예비 수강생들에게 도움이 될 만한 이야기를 남겨보려고 해요. "AI 부트캠프, 나에게 어떤 변화와 기회를 가져다줬을까?"궁금한 분들을 위해 7문 7답을 통해 자세히 이야기해볼게요. 🚀1. 왜 ..

부동산 법률 챗봇 개발기 – LangChain으로 Q&A 시스템 구축하기

부동산 관련 법률은 복잡하고, 일반인들이 이해하기 어려운 경우가 많습니다.부동산 거래 신고법, 임대차 보호법, 재개발·재건축 규정 등은 전문가가 아니면 해석하기 쉽지 않죠.이러한 법률 정보를 보다 쉽게 접근할 수 있도록, 우리는 LangChain을 활용한 부동산 법률 Q&A 챗봇을 개발했습니다!이번 프로젝트에서는 RAG(Retrieval-Augmented Generation) 방식을 적용해,실제 법률 문서를 기반으로 질문에 답변하는 AI 챗봇을 만들었어요.🔍 프로젝트 주요 내용✔ 법률 문서 크롤링 및 데이터베이스화✔ VectorDB 기반 검색 및 답변 생성✔ OpenAI & Upstage API를 활용한 자연어 처리✔ 사용자의 질문을 이해하고, 관련 법 조항을 찾아 답변하는 시스템 구축이번 프로젝트를 ..

REALM (Retrieval-Augmented Language Model)

REALM (Retrieval-Augmented Language Model) 개요질문 응답 (Question Answering): REALM은 주로 질문 응답 시스템에서 뛰어난 성능을 보이는 모델- 사용자의 질문을 받아 관련된 문서를 검색한 후, 이를 바탕으로 답변을 생성하는 방식으로 동작Retrieve-then-predict: REALM의 핵심은 검색 후 예측입니다. 먼저 관련된 정보를 검색하고, 그 후 검색된 정보를 바탕으로 답변을 예측하는 방식으로 구성- 이는 정보 검색과 텍스트 생성을 분리하여 처리하는 방식Neural Knowledge Retriever: REALM은 신경망  기반 지식 검색기를 사용하여, 질의에 대해 관련된 지식을 자동으로 검색- 이 검색기는 대규모 문서 집합에서 필요한 정보를 ..

Study/RAG 2025.02.09