2025/02 28

데이터 구축 프로세스

데이터 구축 프로세스데이터 구축 파이프라인데이터 수집 = 원시 데이터 수집 (Raw Data Collection)- 원시 데이터 수집 방법 : 직접 수집, 웹사이트로부터 크롤링, 오픈 소스 데이터 활용, 크라우드 소싱을 통한 데이터 수집- 데이터의 타당성 검토   - 저작권을 침해하는 데이터를 포함하고 있는지 여부 검토   - 개인정보를 포함하는 데이터를 포함하는지 여부 검토   - 윤리적인 문제가 발생할 수 있는 데이터인지 여부 검토   - 데이터 다양성 확보 획득하는 데이터가 일부 범주에만 치우치지 않고 가능한 다양한 시간, 공간, 집단 수준 등을 포함하도록 구성해야 함   - 데이터 편향 방지 및 윤리 준수 인공지능 모델이 사회적 윤리를 준수할 수 있도록 비윤리적 내용, 편견, 편향된 데이터의 수집..

Study/Data Centric 2025.02.18

Data-Centric AI의 미래

Data-Centric AI의 미래Foundation Model의 시대 - 2022년 11월 30일 ChatGPT가 세상에 공개된 이후로, Data-Centric AI에서도 LLM을 중심으로 많은 변화가 시작되었음 - 즉, LLM과 같은 Foundation Model에 필요한 데이터들에 집중하기 시작!Foundation Model- 라벨링이 되어 있지 않은 대규모 데이터 기반으로 학습된 모델로, 다양한 다운스트림 문제에 적응시켜 사용할 수 있음Data-Centric AI의 미래 - 이러한 Foundation Model의 시대를 맞이하여, Data-Centric AI에서 유의 깊게 살펴봐야 할 키워드는 다음과 같음Multilingual Unilingual LM - 트랜스포머 이전에는 둘 이상의 언어로 이루..

Study/Data Centric 2025.02.18

Data-Centric AI가 산업에 미친 영향

Pretraining & Fine-Tuning트랜스포머 기반 언어 모델- 트랜스포머의 인코더/디코더 구조를 이용한 언어 모델이 기존의 LSTM 계열을 압도하는 성능을 보이면서, - 웬만한 언어 모델은 모두 트랜스포머 계열로 대체되고 NLP 분야의 연구가 활발히 이루어짐거대 언어 모델 (Large Language Model, LLM) - 여러 연구를 통해 트랜스포머 계열은 모델 파라미터가 많을수록 더 일반화된 좋은 성능을 가짐을 실증적으로 보임- 그러나 이를 위해서 많은 데이터와 연산 자원이 필요하며, 일부 초거대 IT기업만이 이를 가능케 함파인튜닝 (Fine-Tuning) - 일반적인 기업, 개인, 연구자들은 이렇게 사전학습된 LLM을 자신의 태스크에 맞게 리폼하는 파인튜닝을 통해 언어 모델을 이용함 파..

Study/Data Centric 2025.02.18

Data-Centric AI

Data-Centric AI데이터의 중요성- AI System = Code + Data - 데이터는 곧 모델을 학습하는 데에 필요한 재료 - 동일한 데이터에 대해 서로 다른 어노테이션/라벨을 다는 경우가 발생 ⇒ 노이즈 발생Data-Centric AI의 정의- 2020년대에 들어서 주목받기 시작한 AI 접근 방식으로, 개발 및 운용의 관점에서 데이터를 중심으로 접근하는 방식-  Model-Centric AI : 과거 그리고 지금도 여전히 가장 주로 사용되는 AI 접근 방식으로, 개발 및 운용의 관점에서 모델을 중심으로 접근하는 방식 Model-Centric AI vs. Data-Centric AI코드를 개선하면 Model-Centric AI, 데이터를 개선하면 Data-Centric AI라고 이해할 수 ..

Study/Data Centric 2025.02.17

[AI 부트캠프] 부트캠프 고민하는 당신을 위해 –7문 7답 솔직하게!

AI 부트캠프를 시작한 지도 벌써 몇 개월이 지났어요. 처음 지원할 때는 정말 고민이 많았고, 내가 이 길을 제대로 가고 있는지 확신이 서지 않았어요.하지만 지금 돌아보면, 부트캠프를 선택한 것은 제 인생에서 가장 의미 있는 결정 중 하나였다고 자신 있게 말할 수 있어요. 처음에는 단순히 "AI를 배워야겠다"는 생각으로 시작했지만, 시간이 지나면서 이 과정이 단순한 학습이 아니라 진로를 명확히 하고, 실무 경험을 쌓고, 성장하는 과정이었다는 걸 깨달았어요.부트캠프를 하면서 겪었던 경험과 배운 것들을 정리해보면서, 예비 수강생들에게 도움이 될 만한 이야기를 남겨보려고 해요. "AI 부트캠프, 나에게 어떤 변화와 기회를 가져다줬을까?"궁금한 분들을 위해 7문 7답을 통해 자세히 이야기해볼게요. 🚀1. 왜 ..

부동산 법률 챗봇 개발기 – LangChain으로 Q&A 시스템 구축하기

부동산 관련 법률은 복잡하고, 일반인들이 이해하기 어려운 경우가 많습니다.부동산 거래 신고법, 임대차 보호법, 재개발·재건축 규정 등은 전문가가 아니면 해석하기 쉽지 않죠.이러한 법률 정보를 보다 쉽게 접근할 수 있도록, 우리는 LangChain을 활용한 부동산 법률 Q&A 챗봇을 개발했습니다!이번 프로젝트에서는 RAG(Retrieval-Augmented Generation) 방식을 적용해,실제 법률 문서를 기반으로 질문에 답변하는 AI 챗봇을 만들었어요.🔍 프로젝트 주요 내용✔ 법률 문서 크롤링 및 데이터베이스화✔ VectorDB 기반 검색 및 답변 생성✔ OpenAI & Upstage API를 활용한 자연어 처리✔ 사용자의 질문을 이해하고, 관련 법 조항을 찾아 답변하는 시스템 구축이번 프로젝트를 ..

REALM (Retrieval-Augmented Language Model)

REALM (Retrieval-Augmented Language Model) 개요질문 응답 (Question Answering): REALM은 주로 질문 응답 시스템에서 뛰어난 성능을 보이는 모델- 사용자의 질문을 받아 관련된 문서를 검색한 후, 이를 바탕으로 답변을 생성하는 방식으로 동작Retrieve-then-predict: REALM의 핵심은 검색 후 예측입니다. 먼저 관련된 정보를 검색하고, 그 후 검색된 정보를 바탕으로 답변을 예측하는 방식으로 구성- 이는 정보 검색과 텍스트 생성을 분리하여 처리하는 방식Neural Knowledge Retriever: REALM은 신경망  기반 지식 검색기를 사용하여, 질의에 대해 관련된 지식을 자동으로 검색- 이 검색기는 대규모 문서 집합에서 필요한 정보를 ..

Study/RAG 2025.02.09

kNN-LM

kNN-LMk-최근접 이웃을 기반으로 한 언어 모델kNN-LM은 k-최근접 이웃(k-NN) 알고리즘을 활용하여, 텍스트를 생성할 때 유사한 문장을 검색하고 이를 바탕으로 생성하는 방법입니다.기존 RAG와 달리, kNN-LM은 문장 간의 유사성을 비교하여 가장 적합한 문장을 선택하고, 이를 자연스러운 언어로 생성하는 방식입니다. 이 모델은 문서 내에서의 유사성을 찾아내는 데 강력하며, 생성된 답변이 검색된 문서와 밀접하게 연관될 수 있도록 합니다.kNN-LM은 생성된 텍스트의 질을 높이는 데 유용하며, 특정 문서나 구절의 정확성을 반영할 수 있습니다.kNN-LM Datastore kNN-LM Datastore의 주요 기능 - 정보 저장: Datastore는 다양한 문서나 텍스트 조각을 포함     -   ..

Study/RAG 2025.02.09

RAG (Retrieval-Augmented Generation)

RAG (Retrieval-Augmented Generation) 개요검색과 생성을 결합하여 언어 모델의 성능을 향상시키는 기술기존의 언어 모델은 주어진 데이터에서 학습한 정보만을 기반으로 답변을 생성하지만, RAG는 외부 데이터베이스나 문서에서 정보를 검색하여 이를 생성 과정에 반영이 방식은 모델이 더 정확하고 풍부한 정보를 바탕으로 답변을 생성할 수 있게 함RAG의 주요 특징은 정보 검색과 텍스트 생성을 결합하여, 새로운 정보나 추가적인 지식을 바탕으로 더 나은 성능을 발휘할 수 있다는 점다양한 NLP 작업에서 성능을 크게 향상시킬 수 있어 질문 응답, 문서 생성, 요약 등에 효과적임RAG의 핵심 논문들 (Fundamental Papers in RAG) - "RAG: Retrieval-Augmente..

Study/RAG 2025.02.09

NLP 경진대회, 성과보다 중요한 배움의 순간들

NLP 경진대회가 끝난 후, 대회에서 얻은 경험을 되돌아보며 후기를 작성해봅니다.경진대회를 마친 지금, 성적보다는 그 과정에서 배운 점들이 훨씬 더 중요한 가치가 있었다고 생각합니다.경진대회는 저에게 많은 도전과 성장을 안겨주었고, 그로 인해 새로운 기술을 배우고 문제 해결 능력을 키울 수 있었던 소중한 시간이었습니다. 처음 시작할 때는 NLP에 대한 깊은 이해가 부족했지만, 대회가 진행될수록 점점 더 많은 것을 배우고, 그 과정에서 나 자신이 성장하고 있다는 느낌을 받을 수 있었습니다. 또한, 팀원들과 함께 협업하면서 서로의 지식을 공유하고, 문제를 해결하는 과정은 그 무엇보다 값진 경험이었습니다. 이번 NLP 경진대회에서 배운 점과 도전을 중심으로 후기를 남기고자 합니다.   Dialogue Summ..