2025/01 32

자연언어처리의 역사

규칙기반 및 통계기반 자연언어처리규칙 기반 NLP- Rule에 맞게 처리하는 시스템 - Rule 생성을 위해서는 Task에 대한 전문 지식 필요- 데이터를 살펴보면, 누가봐도 전문가가 만들었어야 하는 시대    - 형태소 분석, 구문 분석, 의미 분석 등    - NLP에서의 Task 지식 == 언어학적 지식- 적은 양의 데이터로 일반화 가능- 결론 도출의 논리적 추론 가능- 학습에 필요한 데이터가 비교적 적게 필요- 이를 제작한 전문가의 실력을 넘어서기 매우 어려움- 해당 전문가의 오류를 동일하게 반복- 규칙 구축에 많은 시간과 비용 소요- Toy task에 주로 적용되었음통계기반 NLP- 대량의 텍스트 데이터로 통계를 내어 단어를 표현 - “모두 (군중, 여러분)”가 “무의식적”으로 생산한 대량의 데..

자연어처리-응용시스템

자연어이해 기반형태소 분석기- 형태소 분석 : 어떠한 문자열이 주어졌을 때, 그 문자열을 이루고 있는 형태소를 비롯한 어근, 접두사,접미사, 품사(POS, part-of-speech) 등 다양한 언어적 속성의 구조를 파악하는 것- 품사 태깅 : 형태소 분석을 한 결과의 각 형태소에 품사 태그를 할당하는 과정    - 영어 : 대부분의 형태소가 어절 단위로 구분 가능     - 한국어 : 어절 단위로 형태소가 나뉘지 않음- 규칙기반 형태소 분석 및 품사 태깅 - 통계기반 형태소 분석 및 품사 태깅 - 딥러닝 기반 형태소 분석 및 품사 태깅 - HMM: Hidden Markov Model      - 통계적 마르코프 모델의 하나로, 어떠한 결과를 야기하는 원인은 은닉(Hidden) 상태인 이전의 여러 연속된..

자연언어처리 - 텍스트 전처리

텍스트 전처리데이터 분석 단계전처리 (Preprocessing)컴퓨터가 텍스트를 이해할 수 있도록 하는 Data Preprocessing 방법- HTML 태그, 특수문자, 이모티콘- 정규표현식- 불용어 (Stopword)- 어간추출(Stemming)- 표제어추출(Lemmatizing)KoNLPy - https://konlpy-ko.readthedocs.io/ko/v0.4.3/#- 한국어 자연언어처리를 위한 대표적 python Library- Twitter, Komoran, Mecab 등 다양한 형태소 분석기들을 제공NLTK(Natural Language Toolkit) - https://www.nltk.org - 영어로 된 텍스트의 자연처리를 위한 대표적인 python Library - Classific..

자연언어처리 - 언어학

언어학과 전산언어학언어학 - 언어학은 인간 고유의 정신적인 능력인 언어를 “과학적으로” 연구하는 학문 분야 - 인간의 언어에 대한 무의식적 지식 - 인간이 언어를 습득하는 방법 - 언어의 일반적인/구체적인 구조 - 언어의 다양성 - 언어가 인간이 세상에 대해생각하는 방식에 미치는 영향 전산언어학 - 전산언어학은 컴퓨터를 이용하여 언어를 자동으로 분석하며, 언어 자료를 자동 처리하는 데에서 나타나는 언어학적 문제를 연구하는 학문 언어학의 접근 방법 - 규칙기반 접근: 이론언어학적인 연구를 통해 얻어진 형식화된 문법을 이용 - 통계기반 접근: 실제 사용된 언어 자료에 기반을 둔 접근 방식으로 전자화된 텍스트(코퍼스)의 분석을 통해 얻어진 언어 단위의 분포와 빈도에 관한 정보를 이용 - 딥러닝 기반 접근: 인..

자연언어처리란?

자연언어처리자연언어(Natural Language) - 자연어(Natural Language)란 사람들이 일상생활에서 자연스럽게 사용하는 언어 - 인공언어의 반대말  자연언어처리(Natural Language Processing)- 자연언어처리는 컴퓨터가 자연언어의 의미를 분석하여 이해하고 생성할 수 있도록 만들어주는 기술NLG & NLU자연언어처리가 어려운 이유문맥에 따른 모호성 - 언어에는 문맥이 중요한 역할. 문장 내의 단어나 구문은 주변 문맥에 의해 의미가 변화 - 따라서 컴퓨터는 주변단어나 문구 등의 문맥을 기반으로 언어의 의미를 해석해야 함 표현의 중의성 - 언어는 최소한의 표현으로 최대한의 정보를 표현 - 이에 따라 문장에서는 일반적인 정보의 생략이 빈번하게 일어남 - 이러한 문장 내의 정보..

Generation-확산모델

확산 확률 모델( DPM)- 확산 모델은 정방향/역방향 과정으로 구성됨- 디노이징 확산 확률 모델(DDPM)은 현재 더해진 잡음을 추정하는 방식의 목적 함수를 취함 - 생성은 잡음을 점진적으로 제거하는 방식으로 진행되어 매우 느림확산 확률 모델 (Diffusion Probabilistic Model, DPM, 2015) - 최근 활발히 연구되고 있는 모델 DPM - 확산과 확률- 확산이란? → 물질(픽셀 값)이 섞이고 번져가다가 마지막에는 균일한 농도(노이즈)가 되는 현상 - 확산 현상을 시간에 따라 확률적 모델링 : 마르코프 체인 (Markov Chain) 미래는 과거가 아닌 현재에만 의존!DPM의 구조 - 정방향 확산 (Forward Diffusion Process): 데이터 → 노이즈 (고정)   ..

Study/머신러닝 2025.01.10

[AI 부트캠프] 수강생의 하루 : 번아웃을 극복하는 자세

부트캠프 일정이 절반을 지나면서, 수강생으로서 하루를 기록해 보고 싶었습니다.개인적인 일상과 함께, 번아웃을 겪게 되었을 때 이를 어떻게 이겨냈는지도 함께 담아볼까 합니다. AI 부트캠프는 공휴일과 주말을 제외하고 매일 오전 10시부터 오후 7시까지 진행되며,배움으로 가득한 하루를 보내며 대부분의 시간을 컴퓨터 앞에서 치열하게 노력하는 일정입니다. 글에서는 기상 직후부터 부트캠프를 시작하기 전 아침 시간,부트캠프 중의 시간,그리고 저녁 시간부터 잠들기 전까지의 하루를 담았습니다. 하루하루를 꽉 채워 보내며,가끔 찾아오는 번아웃을 극복하기 위해 제가 실천하는 방법도 함께 적어보았습니다. 부트캠프를 시작하기 전 아침 시간07:00~08:30 기상 및 일상 준비 저는 남자친구와 결혼 준비를 하며 함께 생활하고..

적대적 생성 신경망(Generative Adversarial Networks)

적대적 생성 신경망 (Generative Adversarial Networks) 적대적 생성 신경망 (Generative Adversarial Networks, GANs) - Generative (생성) / Adversarial (적대적) / 신경망 (Networks) - 적대적으로 학습하는 신경망들로 구성되며, 생성 모델로써 활용함생성 모델 관점에서의 VAE와 GANs의 차이- VAE의 생성 방식: 입력 분포를 근사하는 과정에서 규제 (Regularization)을 주며 데이터를 생성 - GANs의 생성 방식: 생성된 데이터와 실제 데이터를 판별하고 속이는 과정을 거치며 생성 모델을 개선 GANs 구조- 데이터를 생성하는 생성 모델 (Generator)과 데이터의 진위를 구별하는 판별 모델 (Discr..

Study/머신러닝 2025.01.09

컴퓨터 비전 첫 도전기: 경진대회에서 배운 것들

CV가 도대체 무엇인지도 모르는 제가 CV 경진대회에 참여를 했고,첫 도전이 마무리 되었습니다. 마무리를 하고 나서도 생각을 하고 좀 남기고 가고 싶은 게 많아서,이렇게 경진대회 후기를 조금 늦게 작성을 하게 되었어요.강의도 조금 미뤄두고...CV경진대회 정리를 하였고, 아직 조금 더 남은 것 같지만 후기를 작성해볼까해요. CV가 도대체 무엇인지도 몰랐던 저의 CV 경진대회 후기입니다! CV 경진대회다양한 종류의 문서 이미지의 클래스를 예측 computer vision에 있어서 아무것도 몰랐던 제게는 정말 큰 산이었고,이번에 팀장이 되면서 더 무거웠던 경진대회입니다. 팀장이지만 앞서서 진행하지 못하고 오히려 팀원들에게 따라갔지만,저 스스로는 공부한 게 많았던 경진대회에요:)데이터 EDA메타 데이터 확인데..

Generation-오토 인코더

오토 인코더오토 인코더 (Autoencoder, 1987)- 입력 데이터의 패턴을 학습하여 데이터를 재건하는 모델    - 비선형 차원 축소 기법으로 활용 가능 오토 인코더의 구조- 인코더(Encoder): 데이터를 저차원 잠재 표현으로 요약 - 디코더(Decoder): 저차원 잠재 표현으로부터 데이터를 재구성(Reconstruction) - 손실 함수: 잠재 표현으로부터 복구한 데이터와 입력 데이터의 평균제곱오차(MSE) 디노이징 오토 인코더- 입력 데이터에 랜덤 노이즈를 주입하거나 Dropout 레이어를 적용- 노이즈가 없는 원래 데이터로 재구성- 디노이징 오토 인코더의 원리      - 안개 속에서 멀리 있는 물체를 구별하려면? 데이터의 특성들을 더욱 정확히 학습함      - 노이즈에 강건한 잠..

Study/머신러닝 2025.01.09