사전 학습을 위한 학습 데이터사전 학습 데이터- 웹 데이터(Wikipedia, News, Reviews, …) 등을 활용하여 구축- 데이터의 품질 및 다양성이 모델의 성능에 큰 영향을 줌 ⇒ 데이터 전처리 작업이 중요- 품질 및 성능 보장을 위해 필터링/중복 제거 등의 전처리 작업 필요- 영어의 경우 특히 Common Crawl, WebText2, BookCorpus, Wikipedia 등을 소스로 활용사전 학습 데이터의 품질 및 다양성- LLM 사전 학습 데이터의 “Age”, “Quality”, and “Composition (Domain)”이 평가 성능에 큰 영향을 줌 - 특히 다양한 Data sources에 대한 coverage가 가장 큰 영향을 줌 (우측 하단) 사전 학습 데이터 구성의 예- GP..