자연어처리 3

자연언어처리의 연구와 서비스

학계에서의 연구언어공학연구회- 언어공학연구회: 한국어를 중심으로 자연언어의 언어 공학적 연구를 추진하는 연구회 - 매년 ‘한글 및 한국어정보처리 학술대회 (HCLT)’ 개최한글 및 한국어 정보처리 학술대회 (HCLT)- HCLT는 1989년 10월 부터 31년 동안 매년 한글날 전후에 개최- 국내 유명 기업의 채용설명회 등을 같이 진행- 국내 한국어 처리의 학술 교류의 장으로 활발한 토론을 목적으로 함한국에서의 연구- Korean CommonGen: 주어진 형태소 정보를 사용하여 상식에 부합하는 문장을 재구성하는 능력을 개선하고 평가- KULLM: Polyglot-ko를 사용하여 학습한 한국어 LLM 모델- BioBERT: 생물의학 텍스트 마이닝을 위한 양방향 인코더 BERT (BioBERT) 모델 제안..

자연어처리-응용시스템

자연어이해 기반형태소 분석기- 형태소 분석 : 어떠한 문자열이 주어졌을 때, 그 문자열을 이루고 있는 형태소를 비롯한 어근, 접두사,접미사, 품사(POS, part-of-speech) 등 다양한 언어적 속성의 구조를 파악하는 것- 품사 태깅 : 형태소 분석을 한 결과의 각 형태소에 품사 태그를 할당하는 과정    - 영어 : 대부분의 형태소가 어절 단위로 구분 가능     - 한국어 : 어절 단위로 형태소가 나뉘지 않음- 규칙기반 형태소 분석 및 품사 태깅 - 통계기반 형태소 분석 및 품사 태깅 - 딥러닝 기반 형태소 분석 및 품사 태깅 - HMM: Hidden Markov Model      - 통계적 마르코프 모델의 하나로, 어떠한 결과를 야기하는 원인은 은닉(Hidden) 상태인 이전의 여러 연속된..

자연언어처리 - 언어학

언어학과 전산언어학언어학 - 언어학은 인간 고유의 정신적인 능력인 언어를 “과학적으로” 연구하는 학문 분야 - 인간의 언어에 대한 무의식적 지식 - 인간이 언어를 습득하는 방법 - 언어의 일반적인/구체적인 구조 - 언어의 다양성 - 언어가 인간이 세상에 대해생각하는 방식에 미치는 영향 전산언어학 - 전산언어학은 컴퓨터를 이용하여 언어를 자동으로 분석하며, 언어 자료를 자동 처리하는 데에서 나타나는 언어학적 문제를 연구하는 학문 언어학의 접근 방법 - 규칙기반 접근: 이론언어학적인 연구를 통해 얻어진 형식화된 문법을 이용 - 통계기반 접근: 실제 사용된 언어 자료에 기반을 둔 접근 방식으로 전자화된 텍스트(코퍼스)의 분석을 통해 얻어진 언어 단위의 분포와 빈도에 관한 정보를 이용 - 딥러닝 기반 접근: 인..