개발 성장 노트

  • 홈
  • 태그
  • 방명록

사전 학습을 위한 학습 데이터 1

LLM 기반 Data-Centric NLP 연구

사전 학습을 위한 학습 데이터사전 학습 데이터- 웹 데이터(Wikipedia, News, Reviews, …) 등을 활용하여 구축- 데이터의 품질 및 다양성이 모델의 성능에 큰 영향을 줌 ⇒ 데이터 전처리 작업이 중요- 품질 및 성능 보장을 위해 필터링/중복 제거 등의 전처리 작업 필요- 영어의 경우 특히 Common Crawl, WebText2, BookCorpus, Wikipedia 등을 소스로 활용사전 학습 데이터의 품질 및 다양성- LLM 사전 학습 데이터의 “Age”, “Quality”, and “Composition (Domain)”이 평가 성능에 큰 영향을 줌 - 특히 다양한 Data sources에 대한 coverage가 가장 큰 영향을 줌 (우측 하단) 사전 학습 데이터 구성의 예- GP..

Study/자연언어처리 NLP 2025.02.04
이전
1
다음
더보기
프로필사진

개발 성장 노트

Upstage AI Lab 5기와 코딩관련 공부에 대해서 기록을 하기 위한 블로그입니다.

  • 분류 전체보기 (170)
    • Upstage AI LAB 부트캠프 5기 (34)
      • 성장 기록 (11)
      • 실시간 공부내용 복습 (15)
      • 프로젝트 & 경진대회 (0)
      • 패리포터활동 (8)
    • Study (117)
      • Python (12)
      • 통계 (3)
      • CS 기초 (19)
      • 머신러닝 (28)
      • 컴퓨터비전 CV (14)
      • 자연언어처리 NLP (31)
      • RAG (3)
      • Data Centric (7)
    • Coding Study (5)
      • Python Project (2)
      • Machine Learning (1)
      • Coding Test (2)
    • 자격증공부 (0)
      • 자격증 합격후기 (0)
    • 포트폴리오 준비 (0)
    • 논문 (11)
      • 논문작성 (0)
      • 논문 읽기 (11)

Tag

cv, ai 부트캠프, 패스트캠퍼스, 국비지원취업, 패스트캠퍼스업스테이지에이아이랩, 패스트캠퍼스업스테이지부트캠프, 패스트캠퍼스AI부트캠프, 국비지원, 업스테이지패스트캠프, 머신러닝, 패스트캠프업스테이지에이아이랩, UpstageAILab, 업스테이지패스트캠퍼스, 경진대회, 인공지능, 딥러닝, 패스트 캠퍼스, LLM, 자연언어처리, 부트캠프,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/07   »
일 월 화 수 목 금 토
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바