LLM EvaluationA Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark Datasets- QA, 요약, Code generation, 상식 추론, 수학적 문제 해결, 기계 번역, 등 같은 작업을 다루는 다양한 NLP 데이터셋에 대한 ChatGPT의 성능 평가 및 분석 → 140 tasks에 대하여 총 255K 생성 결과 분석- 대부분의 언어 이해 작업에서 우수한 zero-shot 능력을 보임, 수학적 추론 태스크와 같은 일부 작업에서는 정답이 맞았는데 추론 과정이 오답을 보이는 등의 현상이 관측됨G-EVAL: NLG Evaluation using GPT-4 with Better Human Alignment - BLEU, R..