Study/자연언어처리 NLP

LLM 기반 Evaluation-Centric NLP 연구

김 도경 2025. 2. 4. 19:07
LLM Evaluation
  • A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark Datasets
    - QA, 요약, Code generation, 상식 추론, 수학적 문제 해결, 기계 번역, 등 같은 작업을 다루는 다양한 NLP 데이터셋에 대한 ChatGPT의 성능 평가 및 분석 → 140 tasks에 대하여 총 255K 생성 결과 분석
    - 대부분의 언어 이해 작업에서 우수한 zero-shot 능력을 보임, 수학적 추론 태스크와 같은 일부 작업에서는 정답이 맞았는데 추론 과정이 오답을 보이는 등의 현상이 관측됨

  • G-EVAL: NLG Evaluation using GPT-4 with Better Human Alignment
    - BLEU, ROUGE → low correlation with human judgments ⇒ GPT-4 as Evaluator !?

  • Is ChatGPT a General-Purpose Natural Language Processing Task Solver?
    - ChatGPT의 zero-shot reasoning 능력에 대한 실증적 분석
    - 추론 기능을 요하는 다양한 작업에서 훌륭하나, 시퀀스 태그 지정를 지정하는 NER등 특정 task에서 어려움을 겪음

  • FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets
    - LLMs를 평가할 때 작업의 특성을 고려하여 세분화하여 평가해야 함 ⇒ 인간 평가와 더 높은 상관 관계

  • Adaptive Chameleon or Stubborn Sloth: Revealing the Behavior of Large Language Models in Knowledge Conflicts
    - 모델 지식과 검색된 지식의 충돌에 대한 분석 수행! → Counter-Memory 구축

  • Adaptive Chameleon or Stubborn Sloth: Revealing the Behavior of Large Language Models in Knowledge Conflicts
    - LLM이 parametric knowledge에 의존하는 경향이 있으나, counter-memory가 높은 일관성을 보이는 경우 잘 수용하는 결과를 보였음 → counter-memory가 잘못된 정보이므로, LLM이 이러한 오류에 속아 잘못된 정보 제공을 할 수 있는 문제 존재
    - Evidence 의 순서조차도 성능에 영향?

  • Benchmarking Foundation Models with Language-Model-as-an-Examiner
    - LLMs를 Examiner로 활용하여 평가하는 경우도..

  • Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena
    - LLM as Examiner? 인간 선호도와 80% 이상 일치하는 결과 (GPT-4)

  • ALCUNA: Large Language Models Meet New Knowledge
    - 빠르게 진화하는 세계에서 중요하고 어려운 측면인 새로운 지식을 처리하는 LLM의 능력을 평가!!

  • Do Large Language Models Know about Facts?
    - LLM’s factual knowledge의 정도와 범위를 종합적으로 평가

  • Do Large Language Models Know about Facts?
    - Knowledge-intensive tasks에 대하여 심층 분석 수행

  • HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models
    - LLMs의 Hallucination을 평가하기 위한 benchmark dataset 제안
    - 기존 LLMs는 hallucinated contents에 대한 구분 능력이 부족하며, 완화를 위해 retrieval augmentation이 효과적

  • Toxicity in chatgpt: Analyzing persona-assigned language models
    - CahtGPT의 Toxicity 평가/분석: 특정 persona가 할당된 경우, Toxicity 최대 6배 증가

  • Should ChatGPT be Biased? Challenges and Risks of Bias in Large Language Models
    - LLMs의 편향성에 대한 분석 수행. 개발자로서의 책임감 강조

  • The Self-Perception and Political Biases of ChatGPT
    - ChatGPT의 MBTI 및 정치 편향성 조사

  • Towards Understanding Sycophancy in Language Models
    - Can LLMs understand “Sycophancy”? How much does “Sycophancy” affect the behaviors of LLMs?

  • Large Language Models are not Fair Evaluators
    - Positional Bias? candidate responses의 순서만 바꿔도 성능이 변화함!
    - Calibration framework 제안: Multiple Evidence Calibration (MEC) and Balanced Position Calibration (BPC)
    - ChatGPT is not a fair evaluator! ⇔ GPT-4 is a fair evaluator!
LLM Leaderboard
  • Open LLM Leaderboard
    - Open LLM Leaderboard는 세계 최대 머신러닝 플랫폼 Hugging Face에서 운영하고 있으며, 전세계 테크기업과 연구기관이 개발하여 업데이트한 AI 모델을 평가하고 순위를 매겨 Open LLM의 성능을 비교할 수 있음

  • MTEB Leaderboard
    - MTEB: Massive Text Embedding Benchmark

  • Chatbot Arena: Benchmarking LLMs in the Wild with Elo Ratings
    - Crowdsourced open platform for LLM evaluations으로, 20만개의 human preferences 기반으로 구축됨

  • Big Code Models Leaderboard
    - HumanEval benchmark와 MultiPL-E 에서 multilingual code generation 모델의 성능 비교를 위함

  • Open ASR Leaderboard
    - 음성 인식 모델의 순위 및 평가를 위함
    - Word Error Rate (WER), Real-Time Factor (RTF) 등 활용

  • LLM Perf Leaderboard
    - 다양한 하드웨어, 백엔드 및 최적화 환경에서의 LLMs의 처리 성능(latency, throughput, memory & energy) 평가 목표

  • Open Multilingual LLM Evaluation Leaderboard
    - 다국어 LLMs 평가를 위함. 29개 언어 지원, 지속적으로 다른 언어 지원 확장 진행 중

  • AlpacaEval Leaderboard
    - AlpacaEval evaluation set에 대한 리더보드, GPT-4와 같은 LLM을 참조 모델로 활용하여 답변 선호도를 평가!

  • HELM Leaderboard 
    - HELM? A Holistic framework for EvaLuating foundation Models
    - 다양한 모델을 다양한 시나리오 그룹에 대하여 다양한 관점으로 평가하기 위함

  • Hallucinations Leaderboard
    - TruthfulQA, HaluEvals, XSum, CNN/DM, Self-CheckGPT 등을 활용하여 LLMs의 Hallucinations를 평가하기 위함

  • OpenCompass 2023 LLM Annual Leaderboard
    - LLMs에 대한 Annual Leaderboard로, 매년 다양한 LLMs에 대한 평가를 목표
    - language, knowledge, reasoning, creation, long-context, agent 등 다양한 역량을 평가

  • ZeroSCROLLS: Zero-Shot CompaRison Over Long Language Sequences
    - Long texts 생성 평가 목적으로, benchmark에는 요약, QA, 감정 분류 및 information reordering 등 10개의 tasks 평가

  • Open Ko-LLM Leaderboard
    - Upstage와 AI-Hub를 통해 데이터셋을 제공하는 NIA가 공동 주최한 한국어 LLM의 성능을 객관적으로 평가하기 위한 리더보드