- Perplexity(PPL)
- 문장의 길이로 정규화된, 문장을 생성할 확률의 역수
- 일반적인 자연언어 생성모델의 대표적인 평가지표
- 낮을 수록 좋음
- 문장이 완성될 때, 각 토큰은 확률적으로 선택 => Perplexity는 문장이 완성될 때까지 선택된 토큰들의 누적된 확률을 기반으로 계산한 값
- 당혹감, 혼란 등의 단어가 가진 의미 그대로 모델이 정답을 결정할 때 얼마나 헷갈렸는가를 나타내는 지표 => Perplexity가 낮을수록 모델이 덜 헷갈린 상태로 확신을 가지고 답을 냈다는 의미 - BLEU
- 목표로 하는 문장과 모델이 생성한 문장이 일치하는 정도를 precision 관점에서 수치화
=> BLEU는 단어가 Reference 중에 한 곳이라도 포함된다면 정답인 걸로 취급
- Precision: n-gram을 통한 순서쌍들이 얼마나 겹치는지 측정
- Brevity Penalty: 문장길이에 대한 과적합 보정
- Clipping: 같은 단어가 연속적으로 나올 때 과적합 되는 것을 보정 - ROUGE
- 목표로 하는 문장과 모델이 생성한 문장이 일치하는 정도를 Recall 관점에서 수치화
=> ROUGE는 reference의 단어가 예측 문장 중에 한 곳이라도 포함된다면 정답인 걸로 취급
- ROUGE-N: unigram, bigram, trigram 등 문장 간 중복되는 n-gram을 비교
- ROUGE-L: LCS 기법을 이용해 최장 길이로 매칭되는 문자열을 측정. LCS의 장점은 ROUGE-2와 같이 단어들의 연속적 매칭을 요구하지 않고, 어떻게든 문자열 내에서 발생하는 매칭을 측정하기 때문에 보다 유연한 성능 비교가 가능
예) Reference: police killed the gunman / System_1: police kill the gunman / System_2: the gunman kill police
=> ROUGE-N: System_1 = System_2 (“police”, “the gunman”)
=> ROUGE-L: System-1 = 3/4 (“police the gunman”) / System-2 = 2/4 (“the gunman”)
- ROUGE-S: 특정 Window size가 주어졌을 때, Window size 내에 위치하는 단어쌍들을 묶어 해당 단어쌍들이 얼마나 중복되게 나타나는 지를 측정 - METEOR
- Precision과 recall도 함께 고려함 및 다른 가중치를 적용을 통해 이 둘의 조화평균을 활용
- 또한 오답에 대해 별도의 penalty를 부과하는 방식을 채택 • 문장 또는 세그먼트 수준에서 인간의 판단과 좋은 상관관계를 생성하도록 설계
- Exact token matching을 기준으로 정렬하고, 그렇지 않은 경우 WordNet synonyms, stemmed tokens, paraphrases 를 기준으로 정렬 => 토큰 간의 유사한 관계를 반영 - chrF (character n-gram F-score)
- chrF는 Character-level F-score의 약자로, 문자 단위의 n-gram 일치에 대한 F-score 통계를 사용
- 다양한 n-그램 크기 범위(1~6)에 대해 precision 및 recall 값의 조화 평균(F-score)을 사용
- chrF++는 chrF의 개선된 버전으로, 단어 단위의 n-gram을 추가적으로 고려
=> 문자 수준 평가와 단어 수준 평가의 강점을 결합하여 형태와 어순을 동시에 고려
=> 더 많은 언어적 정보를 포착하는 데 유리 - BLEURT (Bilingual Evaluation Understudy with Representations from Transformers)
- BERT 모델의 학습된 임베딩을 사용해 정답 문장과 생성된 문장의 의미론적, 형태론적 유사성을 평가
- 어휘적 그리고 의미적으로 다양한 supervision signals을 얻을 수 있는 다양한 Wikipedia 문장에서 임의의 변화를 준 문장들을 사용하는 새로운 사전학습 방법으로 학습
- 기존의 BLEU, ROUGE와 같은 기존 평가지표는 주어진 참조문장의 의미론적, 구문론적 변형을 제대로 평가할 수 없는 한계점을 극복 - Evaluation Metrics
'Study > 자연언어처리 NLP' 카테고리의 다른 글
의미기반 언어 지식 표현 체계 (0) | 2025.02.03 |
---|---|
문맥기반 언어지식 표현 체계 이론 (0) | 2025.02.03 |
카운트 기반 언어모델 (0) | 2025.02.03 |
전통적인 언어 지식 표현 체계 (0) | 2025.02.03 |
Natural Language 언어모델 (1) | 2025.02.03 |