EDA 3

NLP 대회 전략

데이터 증강기법데이터가 다양해질수록 일반화 성능이 올라감 자연어 데이터 증강기법- EDA (Easy Data Augmentation)- AEDA (An Easier Data Augmentation)- Back TranslationEDA (Easy Data Augmentation) : 4가지 규칙에 따라 단어 수준에서 변경하여 새로운 문장을 생성- Synonym Replacement (SR) : 유의어 교체  - 유의어 교체 , 특정 단어를 유사한 단어로 교체 - Random Insertion (RI) : 임의 단어 삽입  - 임의 단어 삽입, 특정 단어 대신 임의 단어 삽입 - Random Swap (RS) : 두 단어 위치 변경 - 두 단어 위치 변경 , 두개의 단어를 지정하여 서로 위치 변경 - Ra..

CV 모델 성능 높이기

데이터EDA (Exploratory Data Analysis)- EDA (탐색적 데이터 분석)는 데이터를 다양한 각도에서 살펴봄- 시각화 및 통계 분석을 통해 데이터 구조, 패턴, 이상치 등을 먼저 파악해보는 과정 - 이미지 및 object의 분포 파악- 이미지의 다양성 확인- 이상치 및 noise 종류 파악- 다양한 형태의 object가 등장하는지 - Occlusion이 많은 데이터인지- 각 이미지의 noise 정도가 대략 어느정도인지Augmentation - EDA를 기반으로 적절한 augmentation 기법 선정 및 학습 과정에 적용- 데이터 증가: 샘플 개수 및 다양성을 추가하여 overfitting을 방지하고 generalization 능력 향상 - Robustness 향상: 실제 세계에서의 ..

머신러닝 BASIC _ 모델과 데이터

[2024.10.30] 필수 온라인 강의 Part15 Machine Learning Basic CH03 모델과 데이터ML 프로젝트의 구성요소  - y는 따로 쓰는 곳이 있음y = 정답라벨, 목표값, GTy^ = 모델의 출력값, 예측값(hat은 추측값이라는 의미) 데이터셋  함수의 입력값 x와, 그에 대응하는 라벨 y의 순서쌍을 1개 이상 모아둔 집합머신러닝에서 학습을 한다는것1. 정해진 parametric 함수, 즉 모델에서 2. 데이터의 인풋값에 대한 모델 예측값과 라벨의 차이로 계산되는 손실 함수를 최소화하는 3. 파라미터 θ를 찾아내는 것.다양한 머신러닝 방법론들은어떤 구조의, 어떤 파라미터를 가진 모델을 사용하는가?함수의 인풋/아웃풋은 어떤것인가?어떤 손실 함수를 사용하는가?데이터는 어떻게 주어지..

Study/머신러닝 2024.10.30