[2024.11.08] 필수 온라인 강의 Part16 Machine Learning Advanced CH07 데이터 셋 분할이론데이터 분할 - 모델을 학습하기 위해 전체 데이터를 Train, Valid, Test 총 3가지의 데이터로 나누는 과정 - 일반적으로 사용할 수 있는 데이터는 전체 데이터의 일부분 - 학습 데이터의 높은 성능이 실제 미래 데이터에 대한 보장이 되지 않는다 - 이러한 모델의 성능을 보장해 줄 데이터가 필요하며 평가 데이터가 이런 역할-> 데이터는 미래의 데이터나 그 후 단계의 성능은 확인할 수 없는데, 평가셋을 미리 구분하여, 모델이 얼마나 유의미한지 확인할 필요성이 있고, 배포때 확인을 하면 위험성이 많아서, 배포에는 최적의 모델을 보낼 수 있음구성요소- 학습(Train) 데이터..