Study/자연언어처리 NLP

자연언어처리의 역사

김 도경 2025. 1. 13. 11:00
규칙기반 및 통계기반 자연언어처리
  • 규칙 기반 NLP
    - Rule에 맞게 처리하는 시스템
    - Rule 생성을 위해서는 Task에 대한 전문 지식 필요
    - 데이터를 살펴보면, 누가봐도 전문가가 만들었어야 하는 시대
       - 형태소 분석, 구문 분석, 의미 분석 등
       - NLP에서의 Task 지식 == 언어학적 지식

    - 적은 양의 데이터로 일반화 가능
    - 결론 도출의 논리적 추론 가능
    - 학습에 필요한 데이터가 비교적 적게 필요
    - 이를 제작한 전문가의 실력을 넘어서기 매우 어려움
    - 해당 전문가의 오류를 동일하게 반복
    - 규칙 구축에 많은 시간과 비용 소요
    - Toy task에 주로 적용되었음

  • 통계기반 NLP
    - 대량의 텍스트 데이터로 통계를 내어 단어를 표현
    - “모두 (군중, 여러분)”가 “무의식적”으로 생산한 대량의 데이터(=빅데이터)를 활용

    통계 기반 방법론
    - 특정 단어에 주목했을 때, 그 주변에서 어떤 단어가 몇 번이나 등장하는지 카운트
    - 사람의 지식으로 가득한 말뭉치에서 자동으로, 효율적으로 핵심을 추출하기 위한 목적 => 의미를 3차원의 벡터로 표현: 단어의 분산표현

    통계적 언어모델 (SLM)
    - 이전 단어들로 부터 다음 단어에 대한 확률을 구함 (확률기반)
    - 코퍼스에 등장하지 않은 단어 시퀀스에 대해서는 확률 측정이 불가 ⇒ 예측 불가
    - Sparsity Problem으로 인한 한계 도달
         - Sparsity Problem : 충분한 양의 데이터를 사용하지 못하여 언어를 정확하게 modeling하지 못하는 문제점

  • 통계 기반 NLP vs 규칙 기반 NLP
    - 전문가의 중요성 감소
    - 더 많은 데이터가 필요
    - 개발이 쉽고 빠름
기계학습 및 딥러닝기반 자연언어처리 ( ML & DL in NLP)

- “전문가” + “모두 (군중, 여러분)” 공존의 시대

  • 머신러닝/딥러닝 기반 모델
    - 학습에 사용할 데이터의 질이 좋고 양이 많으면 인간의 실력을 넘어설 수 있음
    - 인간이 생각하지 못한 새로운 방법을 사용할 수 있음 (예: 이세돌과 알파고의 대결에서 37수, 78수)
    - Data hungry
    - 결과에 대한 해석의 어려움
    - 논리적 추론이 아닌 귀납적 근사에 의한 결론 생성

    - Neural Machine Translation

    - 지도학습을 위한 데이터
         - 정답(레이블)을 필요로하는 데이터
         - 시간 및 금전적 비용 발생
         - 대량으로 구축하기 어려움
         - 대부분의 딥러닝 시스템 구축에는 지도학습과정이 수반되어야 하므로, 이를 위한 데이터 확보 방법에 대한 계획을 세우는 것이 중요

    - 비지도학습을 위한 데이터
         - 정답(레이블)이 필요하지 않은 데이터 (ex.입력과 출력이 동일한 Auto-Encoder 학습 방법)
         - 손쉽게 대량으로 구축할 수 있음
         - 일부 예외적인 경우를 제외하고는 실제 사용 가능한 수준의 성능을 낼 수 있음
         - 지도학습을 보완하여 성능을 더욱 향상시키는 방법으로 사용됨 (ex. BERT, GPT3와 같은 Pretrain 언어모델)

  • Supervised Learning Approach 예시 - 전문가
    - Named-Entity Recognition(NER) / Relation Extraction(RE) : 문장 내의 entity, relation 을 구분하는 task
    - Natural Language Inference (NLI) : Hypothesis가 premise 와 일치하는지를 판단하는 task
    - Question Answering : 주어진 question에 맞는 answer를 생성 또는 선택하는 task
  • Unsupervised Learning Approach 예시 - 모두 (우리, 군중
    - Language Model (LM) : 언어라는 현상을 모델링하고자 단어 시퀀스(문장)에 확률을 할당(assign)하는 모델

뉴럴심볼릭( Neural Symbolic ) 기반 자연언어처리

- 사전에 구축된 상식 정보를 지식 그래프 형태로 구축하여 딥러닝 모델에 주입
  ⇒ 상식정보, 추론 능력 등 딥러닝 모델의 한계를 보완

  • 뉴럴심볼릭 방법의 접목
    - 논리적 추론 영역에서는 지식 표현이 이산적 특성을 갖기 때문에 numerical 모델에는 한계
    ⇒ 지식 베이스의 심볼지식을 Neural Network에 내재화해 지식 베이스를 확장

  • 다양한 분야의 Knowledge Graph와 결합
  • Knowledge Base Question Answering

  • KGBERT
    - Knowledge graph의 triples를 textual sequence로 인식 ⇒ 이러한 triples를 만들기 위해 KG-BERT 제안
    - input : entity, relation description of a triple → computes scoring function of the triple
    - 결과 : triple classification, link prediction, relation prediction tasks에서 SOTA

  • Common Sense Knowledge Graph
    - 인간의 상식이나 지식에 기초해 작은 학습데이터로 많은 추론을 이끔
    - 상식을 entity, relation을 활용한 지식 베이스 그래프 형태로 표현 Ex) 어떤 사람이 상점에 간다(PersonX goes to the store)

  • Multi-hop Question Answering
    - 질문과 함께 거대한 지식 코퍼스가 주어졌을 때 답을 찾기 위해 말뭉치에 다중추론 점프(홉)를 수행하여 질문에 답하는 것
    - Entity 중심의 relation graph를 활용해 Multi-hop reasoning이 필요한 Question에 대한 응답을 추출
Pretrain-Finetuning 기반 자연언어처리

 

  • Language Model
    - 대중이 만든 데이터(Pre-train) + 전문가가 만든 데이터(Fine-tune)
    - 대량의 말뭉치로 언어 능력을 pre-training 이후 task-specific fine-tuning

  • Pretraining
    - 내가 원하는 task 이외의 다른 task의 데이터를 이용하여 주어진 모델을 먼저 학습하는 과정

  • Finetuning
    - 사전학습된 모델을 원하는 task에 해당하는 데이터, 학습 방식으로 다시한번 재학습 시키는 과정

  • 벤치마크의 등장
    - Task-specific benchmark dataset 대량 등장
    - Leaderboard에서의 성능 경쟁

  • Transformer의 등장 이후로 NLP 연구의 메인 트렌드
    - 다양한 Transformer variants 연구도 활발해짐
    - Vanilla Transformer를 바탕으로 Encoder만 사용하는 BERT family, Decoder만 사용하는 GPT family, Encoder-Decoder(Seq2Seq)구조를 가지는 BART family, Transformer XL family 등
    - 다양한 pre-training task (mask, denois, ..)
    - 다양한 training corpus, parameter, ..

  • Language Model 계보

 

LLM( Large Language Models )기반 자연언어처리
  • Scaling Laws for Neural Language Models (OpenAI)
    - 모델 사이즈 => Larger is Better ⇒ Model size > Batch size > Steps
    - NLM의 성능은 훈련 시간, 문장 길이, 데이터 크기, 모델 크기, 연산 능력과 멱법칙 관계 ⇒ 데이터 양보다 모델 사이즈가 성능에 일관적으로 더 큰 영향을 미치며, 큰 모델이 좋음을 증명 “Upscaling”

  • 영향력
    - 대규모 언어 모델의 등장
    - 국내 및 국외 다양한 기업이 자신만의 LLM 개발
    - 새로운 직군의 등장 = Data의 중요성
    - 검색의 새로운 패러다임 : 기존 SOTA 모델들이나 검색 시스템과 확연한 차이, 탐색에서 생성으로 검색의 관점이 전환

    - 의식적 데이터 생성 = 피드백

    - Foundation Models
    - In-Context Few-Shot Learning & Prompt Learning
    - Prompt Engineering : 다양한 능력을 가진 ChatGPT 그 중심엔 Prompt Engineering

  • Large Language Models의 예시
    - OpenAI의 GPT3
    - Google의 PaLM
    - Meta의 LLaMA, LLaMA2
    - Open AI의 DALL-e
    - Kakao Brain의 KoGPT, Min DALL-E
    - Naver AI Lab의 HyperCLOVA
    - LG AI Research의 EXAONE
    - ChatGPT
Continual Learning

Ethics & Fairness
  • 문제점
    - Fairness AI의 부상 : 이루다의 문제
    - Fairness NLP: 현실의 데이터 셋에서 머신 러닝 모델이 판단을 내리는 데에 bias를 최소화 시키는 것을 목표로 연구 분야
    - ChatGPT 조차 무결성을 보장하지는 못함
    - 문화적 차이
    - 사회적 인식에 따른 편향

  • NMT에서의 대응 방안
    - 오역에 의해 변질된 의미로 인한 경제적 손실 및 위법 가능성, 안전에 대한 잘못된 정보 제공의 위험, 종교나 인종 또는 성차별적 발언에 의한 파장은 실생활과 문제가 직결됨
    - 이러한 문제를 완화하기 위해, 기계번역 품질 예측 분야에서는 치명적 오류 감지(Critical Error Detection, CED)에 대한 연구가 이루어지고 있음