전체 글 170

[AI 부트캠프] 수료 직전, 돌아보는 배움의 시간

146일간의 여정 중 어느덧 123일이 지났습니다.남은 시간도 물론 소중하지만, 지금은 마지막 프로젝트에 몰입하고 있는 시점이라이번 글을 통해 부트캠프의 전체 과정을 한 걸음 물러나 돌아보고자 합니다. 패리포터로서 작성하는 마지막 글이기도 하기에,그동안의 배움과 도전, 그리고 제가 느꼈던 변화들을 진솔하게 담아보려 합니다.처음 이 부트캠프에 지원했을 때, 정말 많은 고민과 두려움이 있었습니다.AI와 데이터에 대한 관심은 있었지만, 나에게 과연 이 길이 맞는지 확신이 없었고새로운 환경에서의 도전이 쉽지만은 않을 거라는 것도 알고 있었기 때문입니다. 하지만 지금 돌아보면, 이 100여 일이 넘는 시간은 단순한 기술 습득 이상의 것이었습니다.스스로를 믿는 힘, 팀과 함께 성장하는 경험, 낯선 것을 익숙하게 만..

[AI 부트캠프] 함께 성장하는 법, 피어세션에서 배운 것들

AI 부트캠프를 수강하면서 가장 인상적이었던 활동 중 하나가 바로 피어세션이었습니다.혼자 고민하고 풀어내는 것도 중요하지만, 함께 이야기를 나누면서 배움을 확장할 수 있다는 점에서 매우 뜻깊은 시간이었죠.저는 지금까지 총 7회의 피어세션을 진행하며, 다양한 주제에 대해 서로의 생각을 공유하고, 질문하고 답하는 과정을 통해 많은 것을 배웠습니다.이번 글에서는 피어세션을 통해 얻은 것들, 효과적인 피어세션을 위한 팁, 그리고 앞으로의 부트캠프 수강생들에게 전하고 싶은 이야기를 정리해보려 합니다.  1. 피어세션의 기본 구성 📌 팀명 선정팀의 정체성을 반영할 수 있도록 개성 있는 팀명을 정하는 것도 주요한 과정📌 역할 분배팀장: 팀을 이끌고, 진행 방향을 조율하는 역할서기: 회의록을 작성하고 기록을 남기는..

데이터 수집시 주의사항

라이선스 저작권과 라이선스- 인간의 지적 활동을 통하여 얻어진 무형적 재산(intangible property)을 ‘지식재산’이라고 하며 제작자에게 저작권, 특허권, 상표권 등의 ‘지식재산권’을 통해 그 권리를 보호함- 이 중 ‘저작권(copyright)’은 창작물에 대하여 창작자(저작자)가 창작과 동시에 취득하는 권리를 뜻함 - 저작권법은 저작물의 그 목적, 형태 등에 관계없이 모두 동일한 수준의 독점적 권리를 제공함 … “All right reserved” - 이러한 점을 보완하여, 법적인 해석이 모호해지거나 의도된 바와 다르게 사용되지 않도록 ‘라이선스(license, 이용허락)’를 통해 다른 사람이 저작물을 이용할 수 있는 권한을 부여함       - 물론 사용자는 저작자가 라이선스를 통해 정한 ..

Study/Data Centric 2025.03.06

데이터 수집

데이터 수집 방법 원시 데이터는 기본적으로 아래의 수집 방법들을 통해 수집이 됨직접 수집웹사이트로부터 크롤링오픈 소스 데이터 활용크라우드 소싱을 통한 데이터 수집수집하고자 하는 데이터의 특성 및 환경에 따라 서로 다른 방식의 수집 방법이 필요함따라서, 원하는 데이터를 구축하기 위해 둘 이상의 방식으로 원시 데이터를 수집할 수도 있음 기수집된 데이터의 활용 수집한 데이터의 양을 늘리는 방법 하나 이상의 방법으로 수집된 데이터를 아래의 방법을 통해 가공하여 양을 늘릴 수 있음 데이터 혼합 (Data Blending) - 둘 이상의 소스에서 확보한 데이터를 합쳐서 하나로 사용하는 방법 - 유사한 종류의 데이터를 합쳐서 하나의 더 큰 데이터로 만드는 방식 - 여러 종류의 데이터를 합쳐서 새로운 문제에 맞는 데이..

Study/Data Centric 2025.03.06

데이터 구축 기획서

데이터 구축 기획서의 작성데이터 구축 기획서의 목적인공지능 학습용 데이터의 기획 인공지능 학습용 데이터를 구축하기 위해서는 여러가지 사항이 고려되어야 함- 어떤 문제를 해결하기 위한 데이터인가? - 어떤 방식으로 해당 데이터를 수집할 수 있는가?- 수집 방식에는 문제가 없는가?- 얼마나 많은 양의, 그리고 양질의 데이터를 수집해야 문제를 해결할 수 있는가? - 수집한 데이터를 어떤 방식으로 정제할 것인가? - 어떤 라벨을 누구로부터 어떻게 수집하는 것이 적절한가? - 수집하는 데에 얼마나 많은 비용이 드는가?데이터 구축 기획서의 구조데이터 구축 기획서를 작성하는 이유- 명확한 방향 설정 : 기획서를 작성하는 과정에서 현황에 대한 분석이 이루어지고, 해당 데이터의 필요성과 목표 등에 대한 내부 합의를 이뤄..

Study/Data Centric 2025.03.06

데이터 구축 프로세스

데이터 구축 프로세스데이터 구축 파이프라인데이터 수집 = 원시 데이터 수집 (Raw Data Collection)- 원시 데이터 수집 방법 : 직접 수집, 웹사이트로부터 크롤링, 오픈 소스 데이터 활용, 크라우드 소싱을 통한 데이터 수집- 데이터의 타당성 검토   - 저작권을 침해하는 데이터를 포함하고 있는지 여부 검토   - 개인정보를 포함하는 데이터를 포함하는지 여부 검토   - 윤리적인 문제가 발생할 수 있는 데이터인지 여부 검토   - 데이터 다양성 확보 획득하는 데이터가 일부 범주에만 치우치지 않고 가능한 다양한 시간, 공간, 집단 수준 등을 포함하도록 구성해야 함   - 데이터 편향 방지 및 윤리 준수 인공지능 모델이 사회적 윤리를 준수할 수 있도록 비윤리적 내용, 편견, 편향된 데이터의 수집..

Study/Data Centric 2025.02.18

Data-Centric AI의 미래

Data-Centric AI의 미래Foundation Model의 시대 - 2022년 11월 30일 ChatGPT가 세상에 공개된 이후로, Data-Centric AI에서도 LLM을 중심으로 많은 변화가 시작되었음 - 즉, LLM과 같은 Foundation Model에 필요한 데이터들에 집중하기 시작!Foundation Model- 라벨링이 되어 있지 않은 대규모 데이터 기반으로 학습된 모델로, 다양한 다운스트림 문제에 적응시켜 사용할 수 있음Data-Centric AI의 미래 - 이러한 Foundation Model의 시대를 맞이하여, Data-Centric AI에서 유의 깊게 살펴봐야 할 키워드는 다음과 같음Multilingual Unilingual LM - 트랜스포머 이전에는 둘 이상의 언어로 이루..

Study/Data Centric 2025.02.18

Data-Centric AI가 산업에 미친 영향

Pretraining & Fine-Tuning트랜스포머 기반 언어 모델- 트랜스포머의 인코더/디코더 구조를 이용한 언어 모델이 기존의 LSTM 계열을 압도하는 성능을 보이면서, - 웬만한 언어 모델은 모두 트랜스포머 계열로 대체되고 NLP 분야의 연구가 활발히 이루어짐거대 언어 모델 (Large Language Model, LLM) - 여러 연구를 통해 트랜스포머 계열은 모델 파라미터가 많을수록 더 일반화된 좋은 성능을 가짐을 실증적으로 보임- 그러나 이를 위해서 많은 데이터와 연산 자원이 필요하며, 일부 초거대 IT기업만이 이를 가능케 함파인튜닝 (Fine-Tuning) - 일반적인 기업, 개인, 연구자들은 이렇게 사전학습된 LLM을 자신의 태스크에 맞게 리폼하는 파인튜닝을 통해 언어 모델을 이용함 파..

Study/Data Centric 2025.02.18

Data-Centric AI

Data-Centric AI데이터의 중요성- AI System = Code + Data - 데이터는 곧 모델을 학습하는 데에 필요한 재료 - 동일한 데이터에 대해 서로 다른 어노테이션/라벨을 다는 경우가 발생 ⇒ 노이즈 발생Data-Centric AI의 정의- 2020년대에 들어서 주목받기 시작한 AI 접근 방식으로, 개발 및 운용의 관점에서 데이터를 중심으로 접근하는 방식-  Model-Centric AI : 과거 그리고 지금도 여전히 가장 주로 사용되는 AI 접근 방식으로, 개발 및 운용의 관점에서 모델을 중심으로 접근하는 방식 Model-Centric AI vs. Data-Centric AI코드를 개선하면 Model-Centric AI, 데이터를 개선하면 Data-Centric AI라고 이해할 수 ..

Study/Data Centric 2025.02.17

[AI 부트캠프] 부트캠프 고민하는 당신을 위해 –7문 7답 솔직하게!

AI 부트캠프를 시작한 지도 벌써 몇 개월이 지났어요. 처음 지원할 때는 정말 고민이 많았고, 내가 이 길을 제대로 가고 있는지 확신이 서지 않았어요.하지만 지금 돌아보면, 부트캠프를 선택한 것은 제 인생에서 가장 의미 있는 결정 중 하나였다고 자신 있게 말할 수 있어요. 처음에는 단순히 "AI를 배워야겠다"는 생각으로 시작했지만, 시간이 지나면서 이 과정이 단순한 학습이 아니라 진로를 명확히 하고, 실무 경험을 쌓고, 성장하는 과정이었다는 걸 깨달았어요.부트캠프를 하면서 겪었던 경험과 배운 것들을 정리해보면서, 예비 수강생들에게 도움이 될 만한 이야기를 남겨보려고 해요. "AI 부트캠프, 나에게 어떤 변화와 기회를 가져다줬을까?"궁금한 분들을 위해 7문 7답을 통해 자세히 이야기해볼게요. 🚀1. 왜 ..