LLM 기반 Evaluation-Centric NLP 연구

Study/자연언어처리 NLP

LLM 기반 Evaluation-Centric NLP 연구

김 도경 2025. 2. 4. 19:07

LLM Evaluation

A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark Datasets
- QA, 요약, Code generation, 상식 추론, 수학적 문제 해결, 기계 번역, 등 같은 작업을 다루는 다양한 NLP 데이터셋에 대한 ChatGPT의 성능 평가 및 분석 → 140 tasks에 대하여 총 255K 생성 결과 분석
- 대부분의 언어 이해 작업에서 우수한 zero-shot 능력을 보임, 수학적 추론 태스크와 같은 일부 작업에서는 정답이 맞았는데 추론 과정이 오답을 보이는 등의 현상이 관측됨
G-EVAL: NLG Evaluation using GPT-4 with Better Human Alignment
- BLEU, ROUGE → low correlation with human judgments ⇒ GPT-4 as Evaluator !?
Is ChatGPT a General-Purpose Natural Language Processing Task Solver?
- ChatGPT의 zero-shot reasoning 능력에 대한 실증적 분석
- 추론 기능을 요하는 다양한 작업에서 훌륭하나, 시퀀스 태그 지정를 지정하는 NER등 특정 task에서 어려움을 겪음
FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets
- LLMs를 평가할 때 작업의 특성을 고려하여 세분화하여 평가해야 함 ⇒ 인간 평가와 더 높은 상관 관계
Adaptive Chameleon or Stubborn Sloth: Revealing the Behavior of Large Language Models in Knowledge Conflicts
- 모델 지식과 검색된 지식의 충돌에 대한 분석 수행! → Counter-Memory 구축
Adaptive Chameleon or Stubborn Sloth: Revealing the Behavior of Large Language Models in Knowledge Conflicts
- LLM이 parametric knowledge에 의존하는 경향이 있으나, counter-memory가 높은 일관성을 보이는 경우 잘 수용하는 결과를 보였음 → counter-memory가 잘못된 정보이므로, LLM이 이러한 오류에 속아 잘못된 정보 제공을 할 수 있는 문제 존재
- Evidence 의 순서조차도 성능에 영향?
Benchmarking Foundation Models with Language-Model-as-an-Examiner
- LLMs를 Examiner로 활용하여 평가하는 경우도..
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena
- LLM as Examiner? 인간 선호도와 80% 이상 일치하는 결과 (GPT-4)
ALCUNA: Large Language Models Meet New Knowledge
- 빠르게 진화하는 세계에서 중요하고 어려운 측면인 새로운 지식을 처리하는 LLM의 능력을 평가!!
Do Large Language Models Know about Facts?
- LLM’s factual knowledge의 정도와 범위를 종합적으로 평가
Do Large Language Models Know about Facts?
- Knowledge-intensive tasks에 대하여 심층 분석 수행
HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models
- LLMs의 Hallucination을 평가하기 위한 benchmark dataset 제안
- 기존 LLMs는 hallucinated contents에 대한 구분 능력이 부족하며, 완화를 위해 retrieval augmentation이 효과적
Toxicity in chatgpt: Analyzing persona-assigned language models
- CahtGPT의 Toxicity 평가/분석: 특정 persona가 할당된 경우, Toxicity 최대 6배 증가
Should ChatGPT be Biased? Challenges and Risks of Bias in Large Language Models
- LLMs의 편향성에 대한 분석 수행. 개발자로서의 책임감 강조
The Self-Perception and Political Biases of ChatGPT
- ChatGPT의 MBTI 및 정치 편향성 조사
Towards Understanding Sycophancy in Language Models
- Can LLMs understand “Sycophancy”? How much does “Sycophancy” affect the behaviors of LLMs?
Large Language Models are not Fair Evaluators
- Positional Bias? candidate responses의 순서만 바꿔도 성능이 변화함!
- Calibration framework 제안: Multiple Evidence Calibration (MEC) and Balanced Position Calibration (BPC)
- ChatGPT is not a fair evaluator! ⇔ GPT-4 is a fair evaluator!

LLM Leaderboard

Open LLM Leaderboard
- Open LLM Leaderboard는 세계 최대 머신러닝 플랫폼 Hugging Face에서 운영하고 있으며, 전세계 테크기업과 연구기관이 개발하여 업데이트한 AI 모델을 평가하고 순위를 매겨 Open LLM의 성능을 비교할 수 있음
MTEB Leaderboard
- MTEB: Massive Text Embedding Benchmark
Chatbot Arena: Benchmarking LLMs in the Wild with Elo Ratings
- Crowdsourced open platform for LLM evaluations으로, 20만개의 human preferences 기반으로 구축됨
Big Code Models Leaderboard
- HumanEval benchmark와 MultiPL-E 에서 multilingual code generation 모델의 성능 비교를 위함
Open ASR Leaderboard
- 음성 인식 모델의 순위 및 평가를 위함
- Word Error Rate (WER), Real-Time Factor (RTF) 등 활용
LLM Perf Leaderboard
- 다양한 하드웨어, 백엔드 및 최적화 환경에서의 LLMs의 처리 성능(latency, throughput, memory & energy) 평가 목표
Open Multilingual LLM Evaluation Leaderboard
- 다국어 LLMs 평가를 위함. 29개 언어 지원, 지속적으로 다른 언어 지원 확장 진행 중
AlpacaEval Leaderboard
- AlpacaEval evaluation set에 대한 리더보드, GPT-4와 같은 LLM을 참조 모델로 활용하여 답변 선호도를 평가!
HELM Leaderboard
- HELM? A Holistic framework for EvaLuating foundation Models
- 다양한 모델을 다양한 시나리오 그룹에 대하여 다양한 관점으로 평가하기 위함
Hallucinations Leaderboard
- TruthfulQA, HaluEvals, XSum, CNN/DM, Self-CheckGPT 등을 활용하여 LLMs의 Hallucinations를 평가하기 위함
OpenCompass 2023 LLM Annual Leaderboard
- LLMs에 대한 Annual Leaderboard로, 매년 다양한 LLMs에 대한 평가를 목표
- language, knowledge, reasoning, creation, long-context, agent 등 다양한 역량을 평가
ZeroSCROLLS: Zero-Shot CompaRison Over Long Language Sequences
- Long texts 생성 평가 목적으로, benchmark에는 요약, QA, 감정 분류 및 information reordering 등 10개의 tasks 평가
Open Ko-LLM Leaderboard
- Upstage와 AI-Hub를 통해 데이터셋을 제공하는 NIA가 공동 주최한 한국어 LLM의 성능을 객관적으로 평가하기 위한 리더보드

저작자표시 비영리 변경금지 (새창열림)

'Study > 자연언어처리 NLP' 카테고리의 다른 글

LLM 기반 Prompt Engineering 연구 (1)	2025.02.05
LLM 기반 Application 연구 (0)	2025.02.05
LLM 기반 Model-Centric NLP 연구 (0)	2025.02.04
LLM 기반 Data-Centric NLP 연구 (2)	2025.02.04
Large Language Model의 근간 이론 (2)	2025.02.04

현재글LLM 기반 Evaluation-Centric NLP 연구

개발 성장 노트

Upstage AI Lab 5기와 코딩관련 공부에 대해서 기록을 하기 위한 블로그입니다.

UpstageAILab, 국비지원취업, 국비지원, 머신러닝, 자연언어처리, 인공지능, 패스트캠퍼스업스테이지부트캠프, ai 부트캠프, 패스트 캠퍼스, 경진대회, 업스테이지패스트캠퍼스, 부트캠프, 딥러닝, LLM, 패스트캠프업스테이지에이아이랩, 패스트캠퍼스업스테이지에이아이랩, cv, 패스트캠퍼스, 업스테이지패스트캠프, 패스트캠퍼스AI부트캠프,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

개발 성장 노트

LLM 기반 Evaluation-Centric NLP 연구

'Study > 자연언어처리 NLP' 카테고리의 다른 글

'Study/자연언어처리 NLP'의 다른글

티스토리툴바

LLM 기반 Evaluation-Centric NLP 연구

'Study > 자연언어처리 NLP' 카테고리의 다른 글

'Study/자연언어처리 NLP'의 다른글

관련글

티스토리툴바