Study/자연언어처리 NLP

자연언어처리 - 언어학

김 도경 2025. 1. 10. 20:51
언어학과 전산언어학
  • 언어학
    - 언어학은 인간 고유의 정신적인 능력인 언어를 “과학적으로” 연구하는 학문 분야
    - 인간의 언어에 대한 무의식적 지식
    - 인간이 언어를 습득하는 방법
    - 언어의 일반적인/구체적인 구조
    - 언어의 다양성
    - 언어가 인간이 세상에 대해생각하는 방식에 미치는 영향

  • 전산언어학
    - 전산언어학은 컴퓨터를 이용하여 언어를 자동으로 분석하며, 언어 자료를 자동 처리하는 데에서 나타나는 언어학적 문제를 연구하는 학문

  • 언어학의 접근 방법
    - 규칙기반 접근: 이론언어학적인 연구를 통해 얻어진 형식화된 문법을 이용
    - 통계기반 접근: 실제 사용된 언어 자료에 기반을 둔 접근 방식으로 전자화된 텍스트(코퍼스)의 분석을 통해 얻어진 언어 단위의 분포와 빈도에 관한 정보를 이용
    - 딥러닝 기반 접근: 인공 신경망이 많은 양의 자료를 통해 학습한 결과를 바탕으로 산출되는 규칙, 정보들을 활용

  • 전통적인 자연언어처리 파이프라인

음절, 형태소, 어절, 품사
  • 음절 (音: 소리 節: 마디)
    - 언어를 말하고 들을 때, 하나의 덩어리로 여겨지는 가장 작은 말소리의 단위
    - 한국어: 하나의 글자가 한 음절 : 음절은 초성, 중성, 종성으로 구성 => 자음(C), 모음(V)
    - 영어: 모음이 포함된 최소 음성 단위

  • 형태소 (形: 모양 態: 모습 素: 본래 )
    - 언어에서 의미를 가지는 가장 작은 단위
    - 형태소를 쪼개면 더 이상 기능이나 의미를 갖지 않음
    - 일반적으로 자연언어처리에서는 분석의 기본이 되는 토큰으로써 형태소를 이용함

  • 어절 (語: 말씀 節: 마디)
    - 한 개 이상의 형태소가 모여 구성된 단위
    - 자연언어는 어절단위로 띄어쓰기 되어 발화 또는 서술됨

  • 품사 (品: 물건 詞: 말)
    - 단어를 문법상 의미, 형태, 기능에 따라 분류한 종별을 의미
    - 역할에 따라 ⇒ 체언, 용언, 관계언, 독립언, 용언
    - 의미에 따라 ⇒ 명사, 대명사, 수사, 관형사, 부사, 조사, 감탄사, 동사, 형용사
    - 형태에 따라 ⇒ 가변어, 불변어
언어의 구성요소

= 형태 / 내용 / 사용

 

1. 형태: 실체인 의미를 물리적으로 표현할 수 있는 방법
2. 내용: 언어가 의미하는 실제의미
3. 사용: 언어를 사용하는 상황

 

언어학의 하위분야
  • 형태론 (morphology)
    - 언어에서 의미를 갖는 가장 기본단위인 형태소를 분석
    - 형태소 간의 상관관계를 규명하는 학문

    - 형태소(morpheme) : 의미를 갖는 언어 단위 중 가장 작은 단위
        - 의미 혹은 문법적 기능의 최소단위
    - 이형태(allomorph): 한 형태소에 대한 여러 개의 변이 형태를 가질 수 있음

  • 통사론(syntax)
    - 단어가 결합하여 구와 문장을 형성하는 규칙/방법을 연구하는 학문
    - Syntax: 원래 그리스어. “함께 배열하다”, 즉 배열을 뜻함
    - 문장을 선형 구조상에서, 구성요소의 연속 또는 나열된 배열 순서에 관한 정확한 분석을 위해 노력함

    - 문법 규칙
       - 문법 규칙은 언어의 올바른 어순을 결정함
       - 문법 규칙은 단어 그룹의 의미와 단어의 배열사이의 관계를 정의함
       - 문법 규칙은 주어와 목적어 같은 문장 내의 문법적 관계를 명시함
       - 문법 규칙은 문장이나 구문이 난해할 때 단어의 결합이 의미와 어떻게 연관되는지를 설명함

    - 심층 구조와 표층 구조(Deep vs. Surface structure)
       - 심층구조: 화자가 문장에 대해 갖는 추상적인 정보를 담은 구조
       - 표층 구조: 실생활에서 사용하는 단어들의 규칙적인 구조
       - 서로 다른 표층 구조(surface structure)를 가지는 예) 능동/수동 : 영어문장으로서의 통사형식에 차이가 있음
          -> 그러나, 심층 구조(deep structure)에서는 동일하다고 할 수 있음
           - 두 문장이 공통으로 가지는 기본 구성성분, 즉 ‘명사구+동사+명사구’ 가 표시될 수 있는 기저 구조

    - 구조적 모호성(Structural Ambiguity)
       - 동일한 표층구조를 가지는 두 개의 상이한 기저 구조가 있을 수 있음
       - 두 개의 서로 다른 심층 구조
         - Annie has an umbrella and she bumped into a man with it 애니는 우산을 갖고 있어서, 그것으로 남자를 때렸다
         - Annie bumped into a man and the man happened to be carrying an umbrella 애니는 한 남자를 때렸는데, 그 남자는 우산을 가지고 있었다
        -> 구조적 모호성이 있는 표층구조
            - “Annie bumped into a man with an umbrella”
              ⇒ 하나의 표층구조가 각각의 다른 심층구조로 표시되어 서로 다른 두 가지 해석을 기저에 가지고 있음

    - 반복(Recursion)
        - 문법규칙은 반복(recursion)이라는 중요한 속성을 가짐. 몇 번이고 반복되는 반복규칙은 구조를 생성하는 데 여러 번 적용되는 특성을 가짐
        - 문장 속으로 다른 문장을 넣을 수 있음

    - 구 구조규칙(Phrase Structure Rules)
        - 특정 구의 구조가 하나 또는 특정된 순서로 늘어선 여러 개의 구성요소들로 이루어진다는 점을 표현
           => 매우 많은 수의 문장을 생성할 수 있도록 함

    - 어휘규칙(Lexical Rules)
        - 구 구조규칙은 구조를 생성함
        - 구 구조규칙의 기본 단위는 품사기호 (N, PN, Pro, V, Art, Prep, Adv, Adj)
        - 어휘(lexical)를 구 구조규칙의 기본 단위인 품사기호로 변환하는 규칙이 필요함

    - 변형규칙(Transformational rules)
         - 앞에서 정의한 구 구조규칙을 따르면 아래 두 번째 문장은 비문
         - 구 구조규칙으로부터 도출된 구조에서 구성요소를 바꾸거나 이동시키는 규칙이 필요 => 변형규칙
              - 수형도의 일부로부터 구조의 특정 부분을 떼어서 그것을 다른 부분에 가져다 붙임
              - 변형규칙을 적용하려면, 어떤 구성요소를 어디로부터 어디로 옮길 것인가를 정해야 함

  • 의미론(semantics)
    - 의미론은 단어, 구, 그리고 문장의 의미를 연구하는 분야
       - 단어, 구, 문장이 사용될 때 전달되는 일반적인 의미를 다룸
       - 특별한 상황에서의 말하는 사람이 의도하는 의미는 제외함

    - 개념적 의미(conceptual meaning): 단어가 사용될 때 전달되는 기본적, 본질적 의미 성분
         - Needle : 가느다란, 뾰족한, 강철도구
    - 연상적 의미(associative meaning): 연상(association) 또는 함축(connotation)
          - Needle : 아픔, 병, 피, 약, 실, 바느질, 찾기 어려움 : 연상은 사람에 따라 다름

    - 어색함 / 이상함 (Oddness)
        - 구문 구조는 정상이지만 의미적으로 어색한 문장
        - 의미적으로 어색하지 않은 문장

    - 의미자질(semantic features)
        - 단어의 의미를 자질들의 나열로 표현하는 방법
        - 단어의 의미를 차별화하기 위한 기본적인 구성요소
        - 단어 의미의 일부분을 자질의 이름과 (+), (-) 기호를 조합하여 표현
        - 의미자질은 단어자체를 의미성분을 담고 있는 그릇으로 보는 관점

    - 의미역(semantic roles)
        - 개별 단어가 가지는 의미자질 분석 이외에, 문장에서 각 단어의 의미적 역할을 분석
        - 행위자(Agent) : 특정 행위를 하는 주체 (“the boy”)
           - 일반적으로 어떤 행위를 행하는 개체 : 인간, 기계, 바람, 동물, …
           - “주어”와 다른 개념
        - 대상자(Theme) : 특정 행위에 포함되거나 영향을 받는 개체 (“the ball”)
           - 문장에서 행위를 행하지 않는 개체
           - “목적어”와 다른 개념

    - 동의 관계(synonymn) vs 반의관계(antonym)

    - 상하 관계(hyponymy)

    - 동음이철어(homophones)
       - 서로 다른 단어가 동일한 발음을 가지는 경우
         - bare – bear / meat – meet / flour – flower / right – write / to – two – too
         - 낫다 – 낮다 / 느리다 – 늘이다 / 다치다 – 닫히다 / 마치다 – 맞치다 / 바치다 – 받치다 / 거름 – 걸음 / 노름 – 놀음 / 반드시 – 반듯이 / 이따가 – 있다가
        - 동일한 형태(발음)의 단어가 전혀 관련성이 없는 서로 다른 의미를 가지는 경우
              - bat (flying creature) - bat (used in sports) / race (contest of speed) - race (ethnic group) / bank(둑, 제방) – bank (은행) / mole(가죽) – mole(두더지) / pupil(경주) – pupil(눈동자)

    - 다의어(polysemy)
         - 두 단어 사이에 의미적으로 밀접한 관련성이 있는 경우
            - 전체-부분 관계 : car – wheels / house - roofs
            - 그릇-내용 관계 : bottle – water / can - juice
            - 대표-상징 관계 : king – crown / the president - the White House

    - 연어(collocation)
        - 문장, 문서에서 두 단어가 같이 출현하는 경우가 많은 경우
    < 코퍼스 언어학 (corpus linguistics)>
    - 방대한 텍스트 모음에서 특정 단어나 구가 얼마나 빈번하게 사용되는지, 어떤 유형의 연어가 가장 흔한 것인지 발견

  • 화용 론(Pragmatics)
    - “보이지 않는” 의미 또는 실제로 말하거나 쓰지 않았을지라도 화자가 의미하는 바에 대한 연구
         - 언어에서 명시적으로 발화되거나 쓰여지지 않은 의미를 인식하는 방법에 대한 연구
         - 화자, 청자, 시간, 장소 등으로 구성된 대화의 문맥(context)과 관련하여, 문장의 의미를 체계적으로 분석하려는 의미론의 한 분야

    - 화용 원칙 (Pragmatic principle)
         - 대화할 때 “보이지 않는” 의미를 인식하기 위하여, 화자는 반드시 다수의 가정과 기대에 의지하여야 함

    - 물리적인 문맥 (physical context)
       - 어떤 단어를 만나게 되는 물리적인 위치 (시간, 장소)
       - 고층 건물 숲에서 걷다가 “bank” 단어를 보게 된 경우 “financial institution”으로 이해하는 경우가 많음

    - 언어적인 문맥 (linguistic context)
       - 어떤 단어가 포함된 구 또는 문장에서 사용된 다른 언어의 집합 “Bank”의 언어적인 문맥이 각각 아래와 같을 경우
       - 문장에서 “steep”, “overgrown” 등의 단어와 함께 사용된 경우
       - 문장에서 “withdraw”, “cash” 등의 단어와 함께 사용된 경우

    - 직시 표현(deixis, deictic expression)
      - 화자의 문맥(특히 물리적 문맥)을 알아야 해석할 수 있는 표현
       - 발화 문맥에 의존하여 사물을 지시하는 표현
       - 어떤 문장은 누가 말하는지, 누구에 대해, 언제, 어디서 말하는 지 등을 모르면 해석이 불가능한 경우가 많음

    - 직시유형
    - 직시의 중심
      - 화자가 어떤 대상을 가리킬 때 기준점
       1. 제가 찾는 사람은 이 분이 아닙니다.
       2. 얘기가 길어질 것 같은데, 여기보다 저 곳이 좋겠어요.
       3. 어제 고향에 갔다가 방금 도착했습니다.
      - 화자의 상대적 상황에 따른 다른 표현
           - 화자가 어떤 사람을 찾고 있을 때, 그 사람이 화자 쪽으로 걸어올 때 => Here she comes.
           - 화자가 어떤 사람을 찾고 있을 때, 그 사람이 화자 반대 쪽으로 걸어갈 때 =>There she goes

    - 지시(reference)
       - 화자가 청자로 하여금 무언가를 알아채도록(identify) 언어를 사용하는 하나의 행위
            - 일반적으로 화자는 지시 행위를 하기 위하여 고유명사, 명사구 형태의 지시어, 대명사 등을 사용
            - 고유명사 (Chomsky, Jennifer,…) / 명사구 형태의 지시어 (a writer, my friend, the cat) / 대명사 (he, she, it)
       - 칭하는 방법이 명확하지 않은 경우 지시를 사용하기도 함
            - the blue thing / the icy stuff
       - 지시를 위하여 새로운 명칭을 만들기도 함
            - 동네에서 motorcycle을 잘 타는 아저씨 ➔ Mr. Kawasaki

    - 추론(inference)
       - 발화된 내용과 그것의 의미를 연결시키기 위해 청자가 부가적인 정보를 이용하여 해석하는 과정
       - 청자의 상식에 기반한 추론 과정을 통해서 발화의 의미를 해석함

    - 대용어(Anaphora)
       - 이미 소개된 실체에 뒤따르는 지시를 대용어(anaphora)라고 함
         - 선행사 (antecedent) : 처음 소개되는 대상
         - 대용어 (anaphora) : 앞선 선행사를 지시하는 지시 표현

    - 전제(presupposition)
       - 화자가 가정하는 것이 진리이거나 청자(또는 독자)가 알고 있는 사실이라는 것을 전제라고 표현

    - 화행(speech act)
        - 화행은 언어를 통해서 이루어지는 행위, 화자의 발화와 함께 취해지는 행위
        - 언어를 통해서 부탁, 약속, 위협, 사과, 선언 등의 화행을 이해하고 이루어 낼 줄 알아야만 어떤 언어를 안다고 말할 수 있다는 것을 의미

       - 직접 화행: 화행을 직접적으로 표시
       - 간접 화행: 공손함을 기반으로 다른 사람의 체면을 인식하고 배려한다는 것을 보여주는 화행

  • 담화론
    - 담화 : 한 문장의 범위를 넘어서는 언어 => 대화 또는 여러 문장
    - 담화론 : 텍스트와 대화 속에 나타난 언어를 연구하는 학문

    - 어떤 언어 표현이 단순히 올바르거나 또는 잘못된 형태와 구조를 인지할 수 있는 것 이상을 이해할 수 있는 능력
    - 사람은 비문법적인 문서(text)의 내용을 단순히 거부(reject)하지 않고 의미를 이해하려고 노력
    - 문서(text)의 해석에 도달하기 위해, 사람들은 분명 언어적 형태와 구조에 대해 알고 있는 지식에 의존
    - 비문법적 text에 대해, 단순히 비문이라고 reject하지 않음. 대신 작가의 의도를 이해하려고 노력

    - 결속(Cohesion) : 텍스트에서 의미적 연결성(cohesion)을 표현하는 요소로 단어 개체간 의미론적 연결을 의미
       - 접속사 “however”에 의한 결속 : 앞, 뒤 문장 사이의 관계를 표현

       - 시제에 의한 결속
       - 앞 4개 문장: 과거 시제 -> 사건들 사이의 연결성을 표현
       - 마지막 문장: 현재 시제 -> 다른 문장들과 시간적으로 다름을 표현

       - 텍스트 내의 결속적인 연관들에 대한 분석은 글쓴이가 어떻게 자기가 하고자 하는 말을 구성하는 지에 대한 통찰력을 제공
       - 잘 쓰인 글인가를 판단하는 데 중요한 요인

    - 일관성(Coherence)
       - 단어 또는 문장의 구조로 표현되지는 않았지만, 인간은 사물/사건 간 일관성(coherence)을찾는 능력이 있음
       - 사람들은 세상의 이치에 대한 자신들의 경험에 견주어 해석에 도달하려고 노력
       - 우리가 읽은 것을 이해하는 능력은 이 세상에서 우리가 인지하고 경험한 것을 이해하는 전반적인 능력의 아주 작은 일부
       - 어휘와 문장에 의해 실제로 표현되지 않았지만, 의미를 가진 연결고리를 만들어 냄 ⇒ 일관성을 찾으려는 시도를 함

       - 말로 직접 표현되지 않은 것들 사이에서 일관성을 발견하기 위하여 대화에 지속적으로 참여
         - 일관된 연결성이 없음
         - 이러한 유형의 대화는 화자의 관례적인 행동이라는 측면에서 이해
         - 위 대화를 “화행”을 이용하여 다음의 방법으로 특정 지을 수 있음

    - 대화 분석
       - 대화(conversation) : 둘 또는 그 이상의 사람들이 돌아가며 말하는 활동
         - 한 번에 한 사람만 말을 하고, 말과 말 사이의 침묵을 기피하는 경향
       - 대부분의 경우, 참여자들은 다른 사람이 자기의 말이 끝났다는 것을 종료점(completion point)을 표시할 때까지 기다림.
          - 화자들은 본인들의 차례를 마쳤다는 것을 여러 가지 방법으로 표시
          - 다른 참여자들은 말하는 차례를 얻고 싶다는 것을 역시 다양한 방식으로 표현

    - 차례 얻기
        - 대화 스타일에 따른 차례 얻기(turn-taking) 전략 ⇒ 대화 중 정상적인 종료점에 도달하는 것을 피함
          - 무례(rudeness): 한 화자가 다른 이의 말을 끊을 때
          - 수줍음(shyness): 어떤 화자가 계속 말할 기회를 기다리고 있는데 그러한 기회가 쉽게 오지 않을 때

    - 협조의 원칙
       - 양(quantity)의 격률: 요구되는 만큼 정보성 있는 기여를 하되, 요구되는 것보다 많거나 적지 않게 하라
       - 질(quality)의 격률: 당신이 거짓이라고 믿는 것과 그에 대한 증거가 불충분한 것을 말하지 말라
       - 상관성(relation)의 격률: 관련된 내용을 말하라
       - 방법(manner)의 격률: 분명하고, 간략하게 그리고 조리 있게 말하라

    - 함의(Implication)
       - 협조의 원칙과 격률을 지침 삼아, 사람들이 어떻게 대화 중 화자가 무엇인가를 ‘암시’하고 있다고 결정할 수 있는지에 대해 생각해 볼 수 있음
자연언어처리의 언어학
  • 키워드 분석
  • 토큰화(Tokenization)
  • 품사 태깅(POS Tagging)
  • 구문 분석
  • 의미/담화 분석
  • 개체명 인식(NER)
  • 문법 교정(GEC)

  • Dependency Parsing
    - Transtiton-based : 두 단어의 의존여부를 순서대로 결정, 점진적으로 구문분석 트리 구성
    - Graph-based : 가능한 의존 관계를 모두 고려한 뒤 가장 확률이 높은 구문분석 트리를 선택

  • BERT
    - 풍부한 언어 정보 계층 구조를 반영
    ⇒ 가장 아래에는 표면적 특징, 중간에는 구문적 특징, 상단은 의미론적 특징을 보유
    ⇒ BERT의 표현력이 언어 정보를 잘 포착함

    - LIMIT-BERT : Linguistic Informed Multi-Task BERT
    - GiBERT: Introducing Linguistic Knowledge into BERT through a Lightweight Gated Injection Method
    - DMOps: Data Management Operation and Recipes

'Study > 자연언어처리 NLP' 카테고리의 다른 글

딥러닝 기반의 자연언어처리  (0) 2025.01.13
자연언어처리의 역사  (0) 2025.01.13
자연어처리-응용시스템  (0) 2025.01.13
자연언어처리 - 텍스트 전처리  (0) 2025.01.12
자연언어처리란?  (1) 2025.01.10