논문/논문 읽기

Data-Centric AI 관점으로 재해석하는 자연언어처리 기반 History of AI

김 도경 2024. 11. 4. 19:59

Upstage (2023). Data-Centric AI 관점으로 재해석하는 자연언어처리 기반 History of AI. Upstage.

- upstage 멘토링 1주-1일차 제공 아티클

- NLP의 발전 과정을 Data-Centric AI 관점에서 재해석하는 논문

  • 자연언어처리(NLP)란?
    - NLP는 컴퓨터가 인간의 언어를 이해하고 처리하는 기술
    - 텍스트 및 음성 데이터를 분석하여 컴퓨터가 언어적 의미를 파악하고 활용할 수 있도록 하는 것이 목표
    - 규칙 기반 접근이 주를 이루었으나, 이후 통계적, 기계 학습, 딥러닝 기반 모델로 발전하며 그 가능성이 확장

  • 모두를 위한 “언어모델의 역사”
    - 언어모델의 발전은 NLP의 중심에 있으며, 데이터와 알고리즘의 발전에 따라 그 구조와 성능이 크게 향상
    - 초기의 단순 모델에서부터 오늘날의 대규모 언어모델(LLM)에 이르기까지, NLP는 다양한 연구 흐름을 통해 발전
    - 전통적인 방식의 단어 표현 (word representation) 방법은 원-핫 인코딩 (one-hot (or one-of-N) encoding) 방식을 주로 사용 : 관계성을 고려하여 단어를 표현하지 못하며, 단어 집합의 크기와 벡터의 차원이 동일하게 되므로, 매우 높은 차원을 가져서 memory expensive
    - Large Language Model의 시대로 돌입

  • Word2Vec
    - (2013년 구글에서 발표) 단어를 벡터로 변환하는 방법
    - NLP 모델들이 단어 간의 유사성을 계산
    - 이 모델은 단어의 문맥을 벡터화하여 단어 간의 관계를 이해하는 첫걸음이 되었고, 현재의 딥러닝 기반 NLP 모델의 기초가 됨
    - 문맥정보가 가미된 지식표현 체계를 연구하기 시작

  • ELMo
    - . 첫번째는 사전학습, 두번째는 양방향 학습의 시작점
    - 문맥적 단어 임베딩(Contextualized Word Embeddings)을 도입한 모델
         - 문맥에 따라 단어 의미를 다르게 학습할 수 있는 구조
    - 문장의 문맥을 고려하여 단어를 이해하는 것이 가능해졌으며, 문장 구조를 더 세밀하게 파악
    - 사전 훈련된 언어 모델(Pre-trained language model)을 기반 : 특정 테스크로 Fine Tuning하는 기법을 본격적으로 적용한 연구
    - biLM(Bidirectional Language Model) : 문맥을 이해하기 위해 문장의 앞에서 뒤로 (Forward), 그리고 뒤에서 앞으로 (Backward) 학습을 같이 진행
    - ELMo는 단순히 순방향과 역방향 언어모델을 합친 것이기에 진정한 “양방향 언어모델”은 아니었으며, LSTM기반으로 이루어져 있기에 여러 한계점 들을 내포

  • Transformer기반 언어모델의 등장
    - NLP 분야에서 혁신적인 전환점
    - '주의 메커니즘'(Attention Mechanism)을 통해 문맥의 흐름을 효율적으로 반영하며, RNN과 LSTM의 한계를 넘어섬
    - 이를 바탕으로 BERT와 GPT 같은 모델들이 등장하며 NLP 모델의 성능이 급격히 향상
    - BERT : 입력 문장에서 임의로 토큰을 마스킹 처리하고 그 토큰이 무엇인지 예측하는 방식으로 학습을 진행하는 Masked Language Model(MLM) 방식으로 학습을 진행
             - 단일 모델로 양방향 의존성을 모두 학습한, 진정한 양방향적 모델
    - 두 번째 방향성의 대표적인 모델로는 ALBERT, Linformer, Performer 등과 더불어 Quantization, Distillation, Pruning 등의 연구들이 이루어짐

  • LLM 시대의 필수 요소
    - 인프라 : 초거대규모의 클라우드와, 슈퍼 컴퓨팅, 데이터 센터 등이 필요
    - BackBone Model 
    - Tuning 기술 : 비용 효율화를 위한 다양한 튜닝 기술을 필요
    - 고품질 및 다량의 학습 데이터 : 학습 시키기 위한 대용량 데이터가 필요

    -> 결론적으로 언어 모델(Language Model, LM)은 “언어”를 컴퓨터가 이해할 수 있는 체계로 “모델링” 하는 것

  • 데이터 관점에서 사람에 대한 정의
    - 첫 번째로는 “전문가”라는 사람, 두번째로는 “대중”

  • 규칙기반 자연언어처리: “전문가”의 시대
    - 규칙기반 시대는 “전문가”라는 사람의 시대
  • 통계기반 자연언어처리~기계학습 및 딥러닝의 시대: “대중”의 시대
    - 웹페이지에 존재하는 텍스트들, 결국 우리 모두가 데이터를 무의식적으로 생성하고 있던 것
    - 대규모 데이터를 바탕으로 통계기반 방법론들이 주류를 이루다가 딥러닝

  • Pretrain-Finetuning의 시대: “대중” + “전문가”의 시대
    - Pretrain은 말그대로 사전학습
    - 벤치마크 데이터

  • 뉴럴심볼릭의 시대: “전문가”의 시대
    - 이 상식정보들을 Knowledge graph 형태로 구축하고, 이를 딥러닝 모델에 injection 시키는 것이 뉴럴심볼릭

  • Large Language Model의 시대 Part 01 - “대중”의 “무의식적” 데이터 생성의 시대
    - LLM의 초기 단계에서는 인터넷과 같은 대규모 데이터 소스로부터 대중의 무의식적 데이터를 활용해 언어 모델을 학습
    - 이를 통해 다양한 문맥과 표현을 학습할 수 있었으며, 언어의 다양성을 반영하는 것이 가능

  • Large Language Model의 시대 Part 02 - “대중”의 “의식적” 데이터 생성의 시대
    - 대중의 의식적 데이터, 즉 라벨링된 데이터와 정제된 데이터를 기반으로 진행
    - 모델이 더 신뢰성 있는 정보를 학습할 수 있게 하며, NLP 모델이 윤리적, 사회적 책임을 고려한 데이터를 바탕으로 더욱 정확한 결과를 도출