자연언어처리 5

자연언어처리의 연구와 서비스

학계에서의 연구언어공학연구회- 언어공학연구회: 한국어를 중심으로 자연언어의 언어 공학적 연구를 추진하는 연구회 - 매년 ‘한글 및 한국어정보처리 학술대회 (HCLT)’ 개최한글 및 한국어 정보처리 학술대회 (HCLT)- HCLT는 1989년 10월 부터 31년 동안 매년 한글날 전후에 개최- 국내 유명 기업의 채용설명회 등을 같이 진행- 국내 한국어 처리의 학술 교류의 장으로 활발한 토론을 목적으로 함한국에서의 연구- Korean CommonGen: 주어진 형태소 정보를 사용하여 상식에 부합하는 문장을 재구성하는 능력을 개선하고 평가- KULLM: Polyglot-ko를 사용하여 학습한 한국어 LLM 모델- BioBERT: 생물의학 텍스트 마이닝을 위한 양방향 인코더 BERT (BioBERT) 모델 제안..

딥러닝 기반의 자연언어처리

딥러닝 모델 학습 딥러닝 학습방법- 신경망 레이어의 출력 값은 레이어를 구성하는 가중치(파라미터)들의 값에 의해 결정- m개의 입력을 받아 n개의 값을 출력하는 완전연결층은 m×n개의 입력 가중치 값과 n개의 편향 가중치(bias) 값이 있음- 딥러닝 모델들에는 입력 데이터와 출력 데이터를 처리하기 위해 보통 수천개 이상의 파라미터가 사용되고, 레이어의 수도 수십에서 수백에 이름- 이 외에도 모델의 여러 특성들을 결정하는데 가중치 값들이 사용됨 딥러닝 모델은 수천만에서 수억, 수십억 개 이상의 가중치들로 이루어져 있음- 원하는 출력을 만들어내기 위해서는 모든 파라미터의 값을 정밀하게 조정해야 함- 딥러닝은 파라미터에 따라 매우 다양한 입력-출력을 학습 가능함- 딥러닝에서의 학습은 수많은 파라미터들의 최적..

자연언어처리의 역사

규칙기반 및 통계기반 자연언어처리규칙 기반 NLP- Rule에 맞게 처리하는 시스템 - Rule 생성을 위해서는 Task에 대한 전문 지식 필요- 데이터를 살펴보면, 누가봐도 전문가가 만들었어야 하는 시대    - 형태소 분석, 구문 분석, 의미 분석 등    - NLP에서의 Task 지식 == 언어학적 지식- 적은 양의 데이터로 일반화 가능- 결론 도출의 논리적 추론 가능- 학습에 필요한 데이터가 비교적 적게 필요- 이를 제작한 전문가의 실력을 넘어서기 매우 어려움- 해당 전문가의 오류를 동일하게 반복- 규칙 구축에 많은 시간과 비용 소요- Toy task에 주로 적용되었음통계기반 NLP- 대량의 텍스트 데이터로 통계를 내어 단어를 표현 - “모두 (군중, 여러분)”가 “무의식적”으로 생산한 대량의 데..

자연어처리-응용시스템

자연어이해 기반형태소 분석기- 형태소 분석 : 어떠한 문자열이 주어졌을 때, 그 문자열을 이루고 있는 형태소를 비롯한 어근, 접두사,접미사, 품사(POS, part-of-speech) 등 다양한 언어적 속성의 구조를 파악하는 것- 품사 태깅 : 형태소 분석을 한 결과의 각 형태소에 품사 태그를 할당하는 과정    - 영어 : 대부분의 형태소가 어절 단위로 구분 가능     - 한국어 : 어절 단위로 형태소가 나뉘지 않음- 규칙기반 형태소 분석 및 품사 태깅 - 통계기반 형태소 분석 및 품사 태깅 - 딥러닝 기반 형태소 분석 및 품사 태깅 - HMM: Hidden Markov Model      - 통계적 마르코프 모델의 하나로, 어떠한 결과를 야기하는 원인은 은닉(Hidden) 상태인 이전의 여러 연속된..

자연언어처리란?

자연언어처리자연언어(Natural Language) - 자연어(Natural Language)란 사람들이 일상생활에서 자연스럽게 사용하는 언어 - 인공언어의 반대말  자연언어처리(Natural Language Processing)- 자연언어처리는 컴퓨터가 자연언어의 의미를 분석하여 이해하고 생성할 수 있도록 만들어주는 기술NLG & NLU자연언어처리가 어려운 이유문맥에 따른 모호성 - 언어에는 문맥이 중요한 역할. 문장 내의 단어나 구문은 주변 문맥에 의해 의미가 변화 - 따라서 컴퓨터는 주변단어나 문구 등의 문맥을 기반으로 언어의 의미를 해석해야 함 표현의 중의성 - 언어는 최소한의 표현으로 최대한의 정보를 표현 - 이에 따라 문장에서는 일반적인 정보의 생략이 빈번하게 일어남 - 이러한 문장 내의 정보..