Study/자연언어처리 NLP 14

자연어처리-응용시스템

자연어이해 기반형태소 분석기- 형태소 분석 : 어떠한 문자열이 주어졌을 때, 그 문자열을 이루고 있는 형태소를 비롯한 어근, 접두사,접미사, 품사(POS, part-of-speech) 등 다양한 언어적 속성의 구조를 파악하는 것- 품사 태깅 : 형태소 분석을 한 결과의 각 형태소에 품사 태그를 할당하는 과정    - 영어 : 대부분의 형태소가 어절 단위로 구분 가능     - 한국어 : 어절 단위로 형태소가 나뉘지 않음- 규칙기반 형태소 분석 및 품사 태깅 - 통계기반 형태소 분석 및 품사 태깅 - 딥러닝 기반 형태소 분석 및 품사 태깅 - HMM: Hidden Markov Model      - 통계적 마르코프 모델의 하나로, 어떠한 결과를 야기하는 원인은 은닉(Hidden) 상태인 이전의 여러 연속된..

자연언어처리 - 텍스트 전처리

텍스트 전처리데이터 분석 단계전처리 (Preprocessing)컴퓨터가 텍스트를 이해할 수 있도록 하는 Data Preprocessing 방법- HTML 태그, 특수문자, 이모티콘- 정규표현식- 불용어 (Stopword)- 어간추출(Stemming)- 표제어추출(Lemmatizing)KoNLPy - https://konlpy-ko.readthedocs.io/ko/v0.4.3/#- 한국어 자연언어처리를 위한 대표적 python Library- Twitter, Komoran, Mecab 등 다양한 형태소 분석기들을 제공NLTK(Natural Language Toolkit) - https://www.nltk.org - 영어로 된 텍스트의 자연처리를 위한 대표적인 python Library - Classific..

자연언어처리 - 언어학

언어학과 전산언어학언어학 - 언어학은 인간 고유의 정신적인 능력인 언어를 “과학적으로” 연구하는 학문 분야 - 인간의 언어에 대한 무의식적 지식 - 인간이 언어를 습득하는 방법 - 언어의 일반적인/구체적인 구조 - 언어의 다양성 - 언어가 인간이 세상에 대해생각하는 방식에 미치는 영향 전산언어학 - 전산언어학은 컴퓨터를 이용하여 언어를 자동으로 분석하며, 언어 자료를 자동 처리하는 데에서 나타나는 언어학적 문제를 연구하는 학문 언어학의 접근 방법 - 규칙기반 접근: 이론언어학적인 연구를 통해 얻어진 형식화된 문법을 이용 - 통계기반 접근: 실제 사용된 언어 자료에 기반을 둔 접근 방식으로 전자화된 텍스트(코퍼스)의 분석을 통해 얻어진 언어 단위의 분포와 빈도에 관한 정보를 이용 - 딥러닝 기반 접근: 인..

자연언어처리란?

자연언어처리자연언어(Natural Language) - 자연어(Natural Language)란 사람들이 일상생활에서 자연스럽게 사용하는 언어 - 인공언어의 반대말  자연언어처리(Natural Language Processing)- 자연언어처리는 컴퓨터가 자연언어의 의미를 분석하여 이해하고 생성할 수 있도록 만들어주는 기술NLG & NLU자연언어처리가 어려운 이유문맥에 따른 모호성 - 언어에는 문맥이 중요한 역할. 문장 내의 단어나 구문은 주변 문맥에 의해 의미가 변화 - 따라서 컴퓨터는 주변단어나 문구 등의 문맥을 기반으로 언어의 의미를 해석해야 함 표현의 중의성 - 언어는 최소한의 표현으로 최대한의 정보를 표현 - 이에 따라 문장에서는 일반적인 정보의 생략이 빈번하게 일어남 - 이러한 문장 내의 정보..