2025/01/17 6

NLP 대회 전략

데이터 증강기법데이터가 다양해질수록 일반화 성능이 올라감 자연어 데이터 증강기법- EDA (Easy Data Augmentation)- AEDA (An Easier Data Augmentation)- Back TranslationEDA (Easy Data Augmentation) : 4가지 규칙에 따라 단어 수준에서 변경하여 새로운 문장을 생성- Synonym Replacement (SR) : 유의어 교체  - 유의어 교체 , 특정 단어를 유사한 단어로 교체 - Random Insertion (RI) : 임의 단어 삽입  - 임의 단어 삽입, 특정 단어 대신 임의 단어 삽입 - Random Swap (RS) : 두 단어 위치 변경 - 두 단어 위치 변경 , 두개의 단어를 지정하여 서로 위치 변경 - Ra..

BERT 이후의 모델

RoBERTa: 동적 마스킹 방식의 MLMA Robustly Optimized BERT Pretraining Approach - BERT의 pre-training 방식의 변화를 통해 성능을 향상시킴- MLM (Masked Language Modeling) task를 Dynamic masking 방법으로 학습- NSP (Next Sentence Prediction) task 제거- 더 많은 학습 데이터 + 더 큰 batch 크기로 학습A Robustly Optimized BERT Pretraining Approach- BERT의 pre-training 방식의 변화를 통해 성능을 향상시킴- MLM (Masked Language Modeling) task를 Dynamic masking 방법으로 학습- NSP ..

NLP 최신 트렌드

Scaling LawsScaling Laws for Neural Language Models - 최근 등장하고 있는 NLP 모델의 크기는 지속적으로 커지고 있고 (Scaling Up) , GPT-3 모델의 최대 크기는 175 Billion, 즉 175,000,000,000 개의 parameter 를 가짐.- 모델의 파라미터를 늘릴수록, 성능이 향상되며 수행할 수 있는 task의 종류가 늘어남- 모델 크기 뿐 아니라, 데이터 크기와 컴퓨팅 능력을 적절히 확장하면 언어 모델링 성능을 예측 가능하게 향상시킬 수 있음 모델 성능에 영향을 주는 요인 (1) 모델 파라미터 수 N (Parameters) - 임베딩 제외 모델 파라미터 수(2) 학습에 사용된 데이터의 크기 D (Dataset Size)(3) 학습에 ..

카테고리 없음 2025.01.17

Encoder-Decoder Model (BART)

EncoderEncoder : source 문장의 정보를 압축Encoder는 주어진 문장을 분류하는 Task에서 좋은 성능을 보임. (ex. 감정 분석)Masked Language Modeling : 문장 중 빈칸을 임의로 만들어 해당 앞/뒤 문맥에서 어떤 단어가 와야 가장 적절한지를 맞추는 방식으로 학습 -> 양방향(Bidirectional) 성격 - 예) 우리는 지금 어렵지만 열심히 “공부를” 하는 중이야. ○ 예) 우리는 지금 어렵지만 열심히 [MASK] 하는 중이야.DecoderDecoder : source 문장의 정보를 받아서 target 문장을 생성Decoder는 다음 단어를 생성하는 task에서 좋은 성능을 보임. (ex. 요약, 번역) Causal Language Modeling : 문장의..

Decoder Model (GPT)

GPT-1GPT (Generative Pre-Training) - Improving Language Understanding by Generative Pre-Training- Language Understanding : Text Entailment, QA, Classification 등 다양한 task 포함- Generative Pre-training : BERT의 Masked Language Modeling (MLM) 과 다르게, 다음 단어를 생성하는 방식으로 Pre-training 진행 (Causal Language Modeling)- Transformer Decoder 구조를 활용하여 생성에 강점을 가지는 모델 - 문장의 흐름대로, “앞” 의 문맥이 주어졌을 때 다음으로 오는 단어를 맞추는 방식으로..

Encoder Model (BERT)

Transfer Learning출현 배경- 딥러닝의 발전    - 단어 임베딩 (Word2vec, GloVe)를 통해 단어를 벡터로 표현하여 컴퓨터가 자연어를 이해할 수 있도록 만듦   - 딥러닝 모델 (CNN, RNN, LSTM)들을 통해 자연어를 처리할 수 있는 기술이 ༀ진적으로 성장- 산업에서의 신경망 적용 : 구글 신경망 기계 번역 (Google Neural Machine Translation, GNMT)    - 기존 통계 기반 번역기는 구문을 단위로 번역하여 긴 문장을 번역할 때 어려움이 있었음   - 전체 문장을 하나의 번역 단위로 간주해 한 번에 번역하는 신경망 기반 기술 적용   - 번역 오류가 55%에서 85%가량으로 현저히 감소   - 한국어-영어 번역 이용량이 두 달 만에 50% 증..