데이터셋 2

머신러닝 Advanced_ 데이터 셋 분할

[2024.11.08] 필수 온라인 강의 Part16 Machine Learning Advanced CH07 데이터 셋 분할이론데이터 분할 - 모델을 학습하기 위해 전체 데이터를 Train, Valid, Test 총 3가지의 데이터로 나누는 과정 - 일반적으로 사용할 수 있는 데이터는 전체 데이터의 일부분 - 학습 데이터의 높은 성능이 실제 미래 데이터에 대한 보장이 되지 않는다 - 이러한 모델의 성능을 보장해 줄 데이터가 필요하며 평가 데이터가 이런 역할-> 데이터는 미래의 데이터나 그 후 단계의 성능은 확인할 수 없는데, 평가셋을 미리 구분하여, 모델이 얼마나 유의미한지 확인할 필요성이 있고, 배포때 확인을 하면 위험성이 많아서, 배포에는 최적의 모델을 보낼 수 있음구성요소- 학습(Train) 데이터..

Study/머신러닝 2024.11.08

머신러닝 Advanced_ 심화 ML 모델

[2024.11.06] 필수 온라인 강의 Part16 Machine Learning Advanced CH06 심화 ML 모델이론 Bagging vs Boosting- Bagging (Recap.)   - 부트스트랩을 통해 표본을 여러번 뽑아 모델을 학습시키고, 결과를 집계(Aggregation) 하는 앙상블 방법- Boosting  - Boosting은 성능이 약한 모델의 예측값에 대한 오차를 이용해 모델을 더욱 최적값으로 보완하며 성능을 높이는 방법  - 이전 모델이 잘 예측하지 못한 부분에 집중하여 찾아낸 오차를 최적화에 사용하는 점이 가장 큰 차이Boosting Algorithms- 이전 모델의 예측 결과를 다음 모델 구축에 어떻게 활용하는지에 따라 아래의 두방법이 존재 ○ AdaBoost (Ada..

Study/머신러닝 2024.11.06