정규화 2

자연언어처리 - 텍스트 전처리

텍스트 전처리데이터 분석 단계전처리 (Preprocessing)컴퓨터가 텍스트를 이해할 수 있도록 하는 Data Preprocessing 방법- HTML 태그, 특수문자, 이모티콘- 정규표현식- 불용어 (Stopword)- 어간추출(Stemming)- 표제어추출(Lemmatizing)KoNLPy - https://konlpy-ko.readthedocs.io/ko/v0.4.3/#- 한국어 자연언어처리를 위한 대표적 python Library- Twitter, Komoran, Mecab 등 다양한 형태소 분석기들을 제공NLTK(Natural Language Toolkit) - https://www.nltk.org - 영어로 된 텍스트의 자연처리를 위한 대표적인 python Library - Classific..

머신러닝 BASIC _ 모델과 데이터

[2024.10.30] 필수 온라인 강의 Part15 Machine Learning Basic CH03 모델과 데이터ML 프로젝트의 구성요소  - y는 따로 쓰는 곳이 있음y = 정답라벨, 목표값, GTy^ = 모델의 출력값, 예측값(hat은 추측값이라는 의미) 데이터셋  함수의 입력값 x와, 그에 대응하는 라벨 y의 순서쌍을 1개 이상 모아둔 집합머신러닝에서 학습을 한다는것1. 정해진 parametric 함수, 즉 모델에서 2. 데이터의 인풋값에 대한 모델 예측값과 라벨의 차이로 계산되는 손실 함수를 최소화하는 3. 파라미터 θ를 찾아내는 것.다양한 머신러닝 방법론들은어떤 구조의, 어떤 파라미터를 가진 모델을 사용하는가?함수의 인풋/아웃풋은 어떤것인가?어떤 손실 함수를 사용하는가?데이터는 어떻게 주어지..

Study/머신러닝 2024.10.30