Study/자연언어처리 NLP

언어모델 평가 방법

김 도경 2025. 2. 3. 11:45
  • Perplexity(PPL)
    - 문장의 길이로 정규화된, 문장을 생성할 확률의 역수
    - 일반적인 자연언어 생성모델의 대표적인 평가지표
    - 낮을 수록 좋음

    - 문장이 완성될 때, 각 토큰은 확률적으로 선택 => Perplexity는 문장이 완성될 때까지 선택된 토큰들의 누적된 확률을 기반으로 계산한 값
    - 당혹감, 혼란 등의 단어가 가진 의미 그대로 모델이 정답을 결정할 때 얼마나 헷갈렸는가를 나타내는 지표 => Perplexity가 낮을수록 모델이 덜 헷갈린 상태로 확신을 가지고 답을 냈다는 의미

  • BLEU
    - 목표로 하는 문장과 모델이 생성한 문장이 일치하는 정도를 precision 관점에서 수치화
    => BLEU는 단어가 Reference 중에 한 곳이라도 포함된다면 정답인 걸로 취급 

    - Precision: n-gram을 통한 순서쌍들이 얼마나 겹치는지 측정
    - Brevity Penalty: 문장길이에 대한 과적합 보정
    - Clipping: 같은 단어가 연속적으로 나올 때 과적합 되는 것을 보정

  • ROUGE
    - 목표로 하는 문장과 모델이 생성한 문장이 일치하는 정도를 Recall 관점에서 수치화
       => ROUGE는 reference의 단어가 예측 문장 중에 한 곳이라도 포함된다면 정답인 걸로 취급

    - ROUGE-N: unigram, bigram, trigram 등 문장 간 중복되는 n-gram을 비교

    - ROUGE-L: LCS 기법을 이용해 최장 길이로 매칭되는 문자열을 측정. LCS의 장점은 ROUGE-2와 같이 단어들의 연속적 매칭을 요구하지 않고, 어떻게든 문자열 내에서 발생하는 매칭을 측정하기 때문에 보다 유연한 성능 비교가 가능
    예) Reference: police killed the gunman / System_1: police kill the gunman / System_2: the gunman kill police
    => ROUGE-N: System_1 = System_2 (“police”, “the gunman”)
    => ROUGE-L: System-1 = 3/4 (“police the gunman”) / System-2 = 2/4 (“the gunman”)

    - ROUGE-S: 특정 Window size가 주어졌을 때, Window size 내에 위치하는 단어쌍들을 묶어 해당 단어쌍들이 얼마나 중복되게 나타나는 지를 측정

  • METEOR
    - Precision과 recall도 함께 고려함 및 다른 가중치를 적용을 통해 이 둘의 조화평균을 활용
    - 또한 오답에 대해 별도의 penalty를 부과하는 방식을 채택 • 문장 또는 세그먼트 수준에서 인간의 판단과 좋은 상관관계를 생성하도록 설계
    - Exact token matching을 기준으로 정렬하고, 그렇지 않은 경우 WordNet synonyms, stemmed tokens, paraphrases 를 기준으로 정렬 => 토큰 간의 유사한 관계를 반영

  • chrF (character n-gram F-score)
    - chrF는 Character-level F-score의 약자로, 문자 단위의 n-gram 일치에 대한 F-score 통계를 사용
    - 다양한 n-그램 크기 범위(1~6)에 대해 precision 및 recall 값의 조화 평균(F-score)을 사용
    - chrF++는 chrF의 개선된 버전으로, 단어 단위의 n-gram을 추가적으로 고려
       => 문자 수준 평가와 단어 수준 평가의 강점을 결합하여 형태와 어순을 동시에 고려
       => 더 많은 언어적 정보를 포착하는 데 유리

  • BLEURT (Bilingual Evaluation Understudy with Representations from Transformers)
    - BERT 모델의 학습된 임베딩을 사용해 정답 문장과 생성된 문장의 의미론적, 형태론적 유사성을 평가
    - 어휘적 그리고 의미적으로 다양한 supervision signals을 얻을 수 있는 다양한 Wikipedia 문장에서 임의의 변화를 준 문장들을 사용하는 새로운 사전학습 방법으로 학습
    - 기존의 BLEU, ROUGE와 같은 기존 평가지표는 주어진 참조문장의 의미론적, 구문론적 변형을 제대로 평가할 수 없는 한계점을 극복

  • Evaluation Metrics