Scaling LawsScaling Laws for Neural Language Models - 최근 등장하고 있는 NLP 모델의 크기는 지속적으로 커지고 있고 (Scaling Up) , GPT-3 모델의 최대 크기는 175 Billion, 즉 175,000,000,000 개의 parameter 를 가짐.- 모델의 파라미터를 늘릴수록, 성능이 향상되며 수행할 수 있는 task의 종류가 늘어남- 모델 크기 뿐 아니라, 데이터 크기와 컴퓨팅 능력을 적절히 확장하면 언어 모델링 성능을 예측 가능하게 향상시킬 수 있음 모델 성능에 영향을 주는 요인 (1) 모델 파라미터 수 N (Parameters) - 임베딩 제외 모델 파라미터 수(2) 학습에 사용된 데이터의 크기 D (Dataset Size)(3) 학습에 ..