RoBERTa: 동적 마스킹 방식의 MLMA Robustly Optimized BERT Pretraining Approach - BERT의 pre-training 방식의 변화를 통해 성능을 향상시킴- MLM (Masked Language Modeling) task를 Dynamic masking 방법으로 학습- NSP (Next Sentence Prediction) task 제거- 더 많은 학습 데이터 + 더 큰 batch 크기로 학습A Robustly Optimized BERT Pretraining Approach- BERT의 pre-training 방식의 변화를 통해 성능을 향상시킴- MLM (Masked Language Modeling) task를 Dynamic masking 방법으로 학습- NSP ..