Study/머신러닝

자연언어처리란?

김 도경 2025. 1. 10. 19:18
자연언어처리
  • 자연언어(Natural Language)
    - 자연어(Natural Language)란 사람들이 일상생활에서 자연스럽게 사용하는 언어
    - 인공언어의 반대말
     
  • 자연언어처리(Natural Language Processing)
    - 자연언어처리는 컴퓨터가 자연언어의 의미를 분석하여 이해하고 생성할 수 있도록 만들어주는 기술

  • NLG & NLU

자연언어처리가 어려운 이유
  • 문맥에 따른 모호성
    - 언어에는 문맥이 중요한 역할. 문장 내의 단어나 구문은 주변 문맥에 의해 의미가 변화
    - 따라서 컴퓨터는 주변단어나 문구 등의 문맥을 기반으로 언어의 의미를 해석해야 함

  • 표현의 중의성
    - 언어는 최소한의 표현으로 최대한의 정보를 표현
    - 이에 따라 문장에서는 일반적인 정보의 생략이 빈번하게 일어남
    - 이러한 문장 내의 정보부족이 의미론적인 중의성을 야기함

  • 규칙의 예외성
    - 언어에서의 규칙이란, 여러 단어에서 같은 부분이 반복되면 비슷한 의미를 갖는다고 유추하는 것
    - 그러나 단어의 결합 또는 탈락이 반드시 기존 단어와 유사한 의미를 갖거나 일관된 규칙을 갖지는 않음

한국어에서 자연언어처리

  • 교착어
    - 한국어는 교착어로 어근과 접사에 의해 단어의 의미와 기능이 정해짐
    - 예를 들어, ‘그녀’ 뒤에는 ‘가’, ‘를’, ‘의’, ‘에게’ 등 많은 접사가 가능함
    ⇒ 타 언어에 비해 같은 단어라도 무수히 많은 조합이 존재

  • 단어 순서 및 주어 생략
    - 한국어는 단어의 순서가 문장의 의미를 결정하는 결정적인 요소는 아님
    - 따라서 순서를 바꾸어도 전체 맥락을 이해하는데 전혀 문제가 없음
    - 이러한 어순이 바뀌어도 문법적으로도 지장이 없는 경우가 많음
    -> 이러한 언어적 특징은 편리하지만, 어순이 다르나 의미는 동일한 정보로 처리하는 것이 쉽지 않기 때문에 컴퓨터에게는 매우 어려움
    -> 또한 주어를 생략하고 표현하는 언어적 특성 역시 문제임

  • 띄어쓰기
    - 한국어에서 띄어쓰기는 아직 정착단계, 표준이 계속 변화
    - 또한 일반적으로 띄어쓰기가 없어도 어느 정도의 의미전달이 가능하기 때문에 띄어쓰기가 올바른 문장과 틀린 문장이 혼재
    - 이로 인해 추후 정제단계 중 하나인 ‘분절’ 단계에서 컴퓨터는 띄어쓰기가 없는 단어에서 혼란
     

  • 평서문과 의문문
    - 영어와 다르게, 한국어는 의문문과 평서문이 같은 형태의 문장구조를 갖는 경우가 많음
    - 문장 끝에 나오는 문장부호가 붙지 않으면 구분이 어려우며, 많은 경우 사용하지 않아 문맥에 의존해서 판단해야 하는 경우가 존재
    - 따라서, 한국어의 경우 컴퓨터가 숨겨진 맥락이나 의미를 파악하는데 더 까다로움
일상속의 자연언어 처리
  • 문법 교정(Grammatical Error Correction)
    - 문법적으로 올바르지 않은 문장, 문구를 수정

  • 음성인식 (Speech Recognition)
    - 발화된 음성을 인식하고 이를 올바른 텍스트 형태로 변환하거나 음성 기반 상황인지를 통해 업무, 일상을 보조

  • 기계번역 (Machine Translation)
    - 다양한 국가의 언어를 원하는 타겟 언어로 번역

  • Real-Time Translation
    - 음성이 감지됨과 동시에 다국어로 통역하여 사용자에게 제공

  • 정보 추출 – 검색 (Information Extraction)
    - 주어진 쿼리를 기반으로 관련 문서, 정보들을 추출

  • 질의응답 (Question Answering)
    - 사용자의 질문을 이해하고 관련 문서를 찾아 올바른 정답을 추출하거나 내재된 지식을 통해 생성

  • 문서 요약 (Text Summarization)
    - 문서에 나온 텍스트에서 핵심 내용을 기반으로 요약

  • AI Chat-Bot
    - 사용자와 일상 주제, 생활 등의 다양한 주제에 대해 자연스럽게 대화

  • AI X Creation
    - AI를 활용해 문학작품, 이미지 등의 창작물을 생성

  • 자동 완성
    - 입력되는 텍스트들을 기반으로 이후 입력될 단어를 추론해 사용자의 의도 파악을 통한 편리성을 강화

  • 검색 엔진
    - 다량의 데이터로부터 목적에 부합하는 주요 문서들을 검색

  • 정보 요약
    - 대량의 정보를 사용자의 니즈에 따라 원하는 방향으로 요약해서 실시간으로 제공

  • 문서 질의응답
    - 사용자 니즈에 따른 지식기반의 질의응답을 서비스를 제공

  • Chat-Bot
    - 많은 회사에서 챗봇을 고객 서비스 문제를 처리하고 직원을 지원하는 가상 에이전트로 사용

  • AI Assistant
    - 음성을 기반으로 자연언어 처리를 통해 사용자의 의도를 분류, 적절한 기능을 수행해 사람을 보조

  • MS Copilot
    - 대량의 코드 학습을 바탕으로 개발자에게 유용한 툴을 지원

  • ChatGPT Plugin
    - ChatGPT를 기반으로 여러 도메인에 접목할 수 있는 유용한 Plugin들을 제공

'Study > 머신러닝' 카테고리의 다른 글

자연언어처리 - 언어학  (0) 2025.01.10
Generation-확산모델  (0) 2025.01.10
적대적 생성 신경망(Generative Adversarial Networks)  (0) 2025.01.09
Generation-오토 인코더  (0) 2025.01.09
Generation-생성 모델 평가지표  (0) 2025.01.09