Study/자연언어처리 NLP

사전학습 기반 언어모델의 한계점 및 방향성

김 도경 2025. 2. 3. 16:14
사전학습 기반 언어모델의 한계점
  • 일반화 능력의 한계
    - 라벨링된 데이터의 부족
       - 기존 사전학습 모델은 사전학습 → 미세조정의 두 단계를 거침
       - 이 과정에서 라벨링 데이터가 많이 필요하며, 부족할 경우 기대하는 성능을 얻을 수 없음
       - 라벨링된 데이터를 만드는 과정은 많은 노동이 필요

    - 미세조정 후 모델의 일반화 능력 상실
       - 사전학습된 모델을 미세조정할 경우, 일반화 능력이 상실됨
       - 사전학습 단계에서 가지고 있던 지식 대부분이 미세조정 과정에서 사라짐
       - ex) 사전학습 BERT와 의료 진료 분석된 모델로 미세조정된 BERT에서
          - 1. “서울에서 부산까지 KTX로 얼마나 걸리나요?”
          - 2. “떡볶이는 매운맛과 달콤한맛 두 가지가 있어요.”
          - 사전학습 BERT는 위의 두 문장을 어느정도 이해 함
          - 반면, 미세조정된 BERT는 위의 두 문장을 의료 용어로 혼동함

  • 사람의 선호도 기반 답변 불가
    - 사람의 선호도에 대한 정보를 가지고 있지 않기 때문에, 사용자가 원하는 답변을 주기 어려움
    - 사람의 선호는 매 상황마다 다를 수 있음
    - 또한, 모델이 생성한 결과의 좋고 나쁨은 사전학습 모델링 기법으로 극복 불가

    ex) “커피와 차 중 어느 것을 살까요?” 라는 사람의 질문에서
    기존의 미세조정된 언어모델은 “간단하게 설명해줘”라는 두 번째 요청을 단독으로 처리할 수 없음

  • 지식의 오래됨과 업데이트 문제
    - 기존 사전학습 모델은 사전학습 당시 사용됐던 데이터의 지식을 바탕으로 학습이 됨. 따라서, 변화하는 지식을 대처하기 위해서는 새로 사전학습을 진행해야 함
    ex) 새로운 지식 처리 불가: 2018년까지 데이터로 학습된 사전학습 모델은 2019년에 발병한 COVID-19에 대한 지식이 없음
    ex) 변화하는 지식 처리 불가: 2018년까지 학습된 사전학습 모델은 Brexit가 EU 탈퇴 논의를 거치는 것으로 학습하였으나, 2020년에 EU 탈퇴가 된 지금 시점에서는 잘못된 지식으로 처리할 수 있음

  • 계산 비용 및 환경 문제
    - 사전학습 모델 학습 및 사용은 기술적 혁신을 가져오는 반면, 모델을 훈련하고 유지하는 데 필요한 방대한 자원으로 인해 상당한 탄소를 배출하여 심각한 환경 문제를 야기
    - 가령, LLaMA2 모델 학습은 539톤의 CO2를 배출 (163 가구가 1년 사용할 수 있는 전력량)

  • 데이터 편향 및 윤리적 문제
    - 데이터 편향 문제: 사전학습 모델은 특정 코퍼스로 학습되어 해당 코퍼스에서 자주 등장하는 특성으로 편향됨. 이는 성별, 인종, 종교 등의 편향을 발생
    - Gender Bias: 성별에 따라 단어나 문장을 다르게 해석하는 편향 ex) 의사를 남성으로 가정, 간호사를 여성으로 가정
    - Racial Bias: 특정 인종이나 민족에 대해 부정적인 연관성 등을 가지는 편향 ex) 흑인이 입력되었을 때, 범죄와 관련된 단어 확률이 증
    - Age Bias: 특정 언어에 대해 불공정한 처리 등을 하는 편향
    - Socioeconomic Bias: 경제적 지위에 따라 선입견을 가지는 등의 편향 ex) 저소득층은 범죄율이 높다는 등의 경제적 스테레오타입을 반영

    - 모든 편향 (bias)은 나쁜 것은 아니지만, Social bias 등과 같은 사회적 이슈를 발생할 수 있는 편향은 모델이 독성 정보를 뱉을 수 있음

  • 할루시네이션
    - Hallucination: 모델이 사실과 무관하거나 존재하지 않는 정보를 생성하거나, 확인할 수 없는 정보를 생성하는 현상
    - Intrinsic Hallucination → Source에 있는 정보들을 사용해서 합성된 잘못된 정보가 결과로 나온 경우
    - Extrinsic Hallucination → Source에서 찾을 수 없는 정보가 등장한 경우
    - Hallucination은 대부분 생성모델에서 발생
미래 지향적 언어모델 개발 방향
  • 지속가능한 모델 개발 - Continual Learning
    - 데이터 수집, 정제, 모델 학습, 테스트까지 자동화하여 지속적인 LM을 업데이트하는 과정
    - 새로운 정보를 학습하면서, 이전에 학습한 지식을 잊지 않도록 학습하는 것이 주요 목표

    - RAG (Retrieval-Augmented Generation)
        - 생성모델 하나를 사용하는 것이 아닌, 검색모델과 생성모델을 같이 사용하여 작동
        - 검색모델에서 사용되는 데이터베이스로 새로운 정보를 생성모델에게 전달
        - 검색모델과 생성모델을 따로 학습하지 않고, 데이터베이스 업데이트 만으로 정보 업데이트 가능

    - Self-Improvement
        - 인간의 개입 없이 모델 추론 결과를 통해 잘 모르는 지식을 스스로 개선하게 하는 학습 방법
        - 라벨링되지 않은 데이터를 활용하여 잘 모르는 지식들을 일부의 데이터만 추출해 학습하는 것이 트렌드

  • 사람의 선호도 기반 모델 개발
    - In-context Learning
        - Task description 혹은 프롬프트를 통합하여 추론 중에 파라미터를 업데이트 하지 않고 답변을 생성하게 하는 학습 방식
        - 모델은 주어진 예시를 통해 학습 없이 Few-shot inference를 할 수 있음
        - Task description의 활용으로 사람의 선호도를 반영할 수 있음

    - Human Preference Tuning
        - 사람의 선호도 기반 데이터를 통해 LM을 사람의 선호도가 최상이 되도록 미세조정 하는 방법
        - 대표적으로 RLHF, DPO 등이 있음

  • 계산 비용 감소 연구 추진
    - 학습에 적절한 Hyper-parameter 찾기
        - BERT-base는 16 TPU chips로 4일동안 학습되었음
        - 동일한 조건에서 BERT-base 등의 사전학습을 1개의 GPU로 하루동안 진행하는 연구 존재

  • 데이터 편향 완화 기술 개발
    - 언어모델 혹은 데이터 내에 편향을 완화하는 연구 개발
    - 데이터 전처리, 언어모델 개선, 벤치마크 개발 등의 다양한 연구 존재
    - LLMs 등장 이후로 더욱 화제가 됨 (Human Preference Tuning이 이러한 생성을 억제한다?)

  • 모델 해석 가능성 및 투명성 강화