Study/자연언어처리 NLP 14

NLP 대회 전략

데이터 증강기법데이터가 다양해질수록 일반화 성능이 올라감 자연어 데이터 증강기법- EDA (Easy Data Augmentation)- AEDA (An Easier Data Augmentation)- Back TranslationEDA (Easy Data Augmentation) : 4가지 규칙에 따라 단어 수준에서 변경하여 새로운 문장을 생성- Synonym Replacement (SR) : 유의어 교체  - 유의어 교체 , 특정 단어를 유사한 단어로 교체 - Random Insertion (RI) : 임의 단어 삽입  - 임의 단어 삽입, 특정 단어 대신 임의 단어 삽입 - Random Swap (RS) : 두 단어 위치 변경 - 두 단어 위치 변경 , 두개의 단어를 지정하여 서로 위치 변경 - Ra..

BERT 이후의 모델

RoBERTa: 동적 마스킹 방식의 MLMA Robustly Optimized BERT Pretraining Approach - BERT의 pre-training 방식의 변화를 통해 성능을 향상시킴- MLM (Masked Language Modeling) task를 Dynamic masking 방법으로 학습- NSP (Next Sentence Prediction) task 제거- 더 많은 학습 데이터 + 더 큰 batch 크기로 학습A Robustly Optimized BERT Pretraining Approach- BERT의 pre-training 방식의 변화를 통해 성능을 향상시킴- MLM (Masked Language Modeling) task를 Dynamic masking 방법으로 학습- NSP ..

Encoder-Decoder Model (BART)

EncoderEncoder : source 문장의 정보를 압축Encoder는 주어진 문장을 분류하는 Task에서 좋은 성능을 보임. (ex. 감정 분석)Masked Language Modeling : 문장 중 빈칸을 임의로 만들어 해당 앞/뒤 문맥에서 어떤 단어가 와야 가장 적절한지를 맞추는 방식으로 학습 -> 양방향(Bidirectional) 성격 - 예) 우리는 지금 어렵지만 열심히 “공부를” 하는 중이야. ○ 예) 우리는 지금 어렵지만 열심히 [MASK] 하는 중이야.DecoderDecoder : source 문장의 정보를 받아서 target 문장을 생성Decoder는 다음 단어를 생성하는 task에서 좋은 성능을 보임. (ex. 요약, 번역) Causal Language Modeling : 문장의..

Decoder Model (GPT)

GPT-1GPT (Generative Pre-Training) - Improving Language Understanding by Generative Pre-Training- Language Understanding : Text Entailment, QA, Classification 등 다양한 task 포함- Generative Pre-training : BERT의 Masked Language Modeling (MLM) 과 다르게, 다음 단어를 생성하는 방식으로 Pre-training 진행 (Causal Language Modeling)- Transformer Decoder 구조를 활용하여 생성에 강점을 가지는 모델 - 문장의 흐름대로, “앞” 의 문맥이 주어졌을 때 다음으로 오는 단어를 맞추는 방식으로..

Encoder Model (BERT)

Transfer Learning출현 배경- 딥러닝의 발전    - 단어 임베딩 (Word2vec, GloVe)를 통해 단어를 벡터로 표현하여 컴퓨터가 자연어를 이해할 수 있도록 만듦   - 딥러닝 모델 (CNN, RNN, LSTM)들을 통해 자연어를 처리할 수 있는 기술이 ༀ진적으로 성장- 산업에서의 신경망 적용 : 구글 신경망 기계 번역 (Google Neural Machine Translation, GNMT)    - 기존 통계 기반 번역기는 구문을 단위로 번역하여 긴 문장을 번역할 때 어려움이 있었음   - 전체 문장을 하나의 번역 단위로 간주해 한 번에 번역하는 신경망 기반 기술 적용   - 번역 오류가 55%에서 85%가량으로 현저히 감소   - 한국어-영어 번역 이용량이 두 달 만에 50% 증..

자연어 처리 Task와 파이프라인

자연어처리 TaskHuggingface - 기계학습을 사용하여 애플리케이션을 구축하기 위한 도구를 개발하는 미국회사 - 2016년 3명의 프랑스 엔지니어에 의해 설립되었으며, 23년 7월 기준 40억달러 이상 - transformers, datasets , spaces … - transformers 모듈 사용하여 모델/토크나이저 불러오기 - datasets 모듈 사용하여 데이터셋 불러오기- 간단하게 pipeline 모듈 사용하여 입력값에 대한 특정 task 수행 가능 대표적인 자연어 처리 Task - 기계 번역 : 다양한 국가의 언어를 원하는 타겟 언어로 번역- 질의 응답 : 사용자의 질문을 이해하고 관련 문서를 찾아 올바른 정답을 추출하거나 내재된 지식을 통해 생성- 정보 추출 : 주어진 쿼리를 기반으..

자연언어처리 - BERT 이전 모델

앞부분 요약정리Seq2Seq기계번역 (Neural machine translation, NMT) - 입력된 언어를 다른 언어로 번역하는 Task e.g) 파파고자연어와 컴퓨터언어 - 자연어, 사람이 이해할 수 있는 데이터 : 텍스트 형태 e.g) 이순신 장군은 우리나라의 영웅이다. - 컴퓨터 언어, 컴퓨터가 이해할 수 있는 데이터 : 숫자 형태 e.g) [2, 10661, 2073, 7339, 2079, 7073, 28674, 3]인코더 (Encoder) - 사람이 이해할 수 있는 자연어를 컴퓨터가 이해할 수 있는 컴퓨터 언어로 변환해주는 장치 - 아래 그림과 같이, 입력 시퀀스 문장을 고정된 길이의 벡터 (Context vector)로 변환디코더 (Decoder) - 컴퓨터가 이해할 수 있는 컴퓨터 언..

자연언어처리의 연구와 서비스

학계에서의 연구언어공학연구회- 언어공학연구회: 한국어를 중심으로 자연언어의 언어 공학적 연구를 추진하는 연구회 - 매년 ‘한글 및 한국어정보처리 학술대회 (HCLT)’ 개최한글 및 한국어 정보처리 학술대회 (HCLT)- HCLT는 1989년 10월 부터 31년 동안 매년 한글날 전후에 개최- 국내 유명 기업의 채용설명회 등을 같이 진행- 국내 한국어 처리의 학술 교류의 장으로 활발한 토론을 목적으로 함한국에서의 연구- Korean CommonGen: 주어진 형태소 정보를 사용하여 상식에 부합하는 문장을 재구성하는 능력을 개선하고 평가- KULLM: Polyglot-ko를 사용하여 학습한 한국어 LLM 모델- BioBERT: 생물의학 텍스트 마이닝을 위한 양방향 인코더 BERT (BioBERT) 모델 제안..

딥러닝 기반의 자연언어처리

딥러닝 모델 학습 딥러닝 학습방법- 신경망 레이어의 출력 값은 레이어를 구성하는 가중치(파라미터)들의 값에 의해 결정- m개의 입력을 받아 n개의 값을 출력하는 완전연결층은 m×n개의 입력 가중치 값과 n개의 편향 가중치(bias) 값이 있음- 딥러닝 모델들에는 입력 데이터와 출력 데이터를 처리하기 위해 보통 수천개 이상의 파라미터가 사용되고, 레이어의 수도 수십에서 수백에 이름- 이 외에도 모델의 여러 특성들을 결정하는데 가중치 값들이 사용됨 딥러닝 모델은 수천만에서 수억, 수십억 개 이상의 가중치들로 이루어져 있음- 원하는 출력을 만들어내기 위해서는 모든 파라미터의 값을 정밀하게 조정해야 함- 딥러닝은 파라미터에 따라 매우 다양한 입력-출력을 학습 가능함- 딥러닝에서의 학습은 수많은 파라미터들의 최적..

자연언어처리의 역사

규칙기반 및 통계기반 자연언어처리규칙 기반 NLP- Rule에 맞게 처리하는 시스템 - Rule 생성을 위해서는 Task에 대한 전문 지식 필요- 데이터를 살펴보면, 누가봐도 전문가가 만들었어야 하는 시대    - 형태소 분석, 구문 분석, 의미 분석 등    - NLP에서의 Task 지식 == 언어학적 지식- 적은 양의 데이터로 일반화 가능- 결론 도출의 논리적 추론 가능- 학습에 필요한 데이터가 비교적 적게 필요- 이를 제작한 전문가의 실력을 넘어서기 매우 어려움- 해당 전문가의 오류를 동일하게 반복- 규칙 구축에 많은 시간과 비용 소요- Toy task에 주로 적용되었음통계기반 NLP- 대량의 텍스트 데이터로 통계를 내어 단어를 표현 - “모두 (군중, 여러분)”가 “무의식적”으로 생산한 대량의 데..