언어학과 전산언어학
- 언어학
- 언어학은 인간 고유의 정신적인 능력인 언어를 “과학적으로” 연구하는 학문 분야
- 인간의 언어에 대한 무의식적 지식
- 인간이 언어를 습득하는 방법
- 언어의 일반적인/구체적인 구조
- 언어의 다양성
- 언어가 인간이 세상에 대해생각하는 방식에 미치는 영향 - 전산언어학
- 전산언어학은 컴퓨터를 이용하여 언어를 자동으로 분석하며, 언어 자료를 자동 처리하는 데에서 나타나는 언어학적 문제를 연구하는 학문 - 언어학의 접근 방법
- 규칙기반 접근: 이론언어학적인 연구를 통해 얻어진 형식화된 문법을 이용
- 통계기반 접근: 실제 사용된 언어 자료에 기반을 둔 접근 방식으로 전자화된 텍스트(코퍼스)의 분석을 통해 얻어진 언어 단위의 분포와 빈도에 관한 정보를 이용
- 딥러닝 기반 접근: 인공 신경망이 많은 양의 자료를 통해 학습한 결과를 바탕으로 산출되는 규칙, 정보들을 활용 - 전통적인 자연언어처리 파이프라인
음절, 형태소, 어절, 품사
- 음절 (音: 소리 節: 마디)
- 언어를 말하고 들을 때, 하나의 덩어리로 여겨지는 가장 작은 말소리의 단위
- 한국어: 하나의 글자가 한 음절 : 음절은 초성, 중성, 종성으로 구성 => 자음(C), 모음(V)
- 영어: 모음이 포함된 최소 음성 단위 - 형태소 (形: 모양 態: 모습 素: 본래 )
- 언어에서 의미를 가지는 가장 작은 단위
- 형태소를 쪼개면 더 이상 기능이나 의미를 갖지 않음
- 일반적으로 자연언어처리에서는 분석의 기본이 되는 토큰으로써 형태소를 이용함 - 어절 (語: 말씀 節: 마디)
- 한 개 이상의 형태소가 모여 구성된 단위
- 자연언어는 어절단위로 띄어쓰기 되어 발화 또는 서술됨 - 품사 (品: 물건 詞: 말)
- 단어를 문법상 의미, 형태, 기능에 따라 분류한 종별을 의미
- 역할에 따라 ⇒ 체언, 용언, 관계언, 독립언, 용언
- 의미에 따라 ⇒ 명사, 대명사, 수사, 관형사, 부사, 조사, 감탄사, 동사, 형용사
- 형태에 따라 ⇒ 가변어, 불변어
언어의 구성요소
= 형태 / 내용 / 사용
1. 형태: 실체인 의미를 물리적으로 표현할 수 있는 방법
2. 내용: 언어가 의미하는 실제의미
3. 사용: 언어를 사용하는 상황
언어학의 하위분야
- 형태론 (morphology)
- 언어에서 의미를 갖는 가장 기본단위인 형태소를 분석
- 형태소 간의 상관관계를 규명하는 학문
- 형태소(morpheme) : 의미를 갖는 언어 단위 중 가장 작은 단위
- 의미 혹은 문법적 기능의 최소단위
- 이형태(allomorph): 한 형태소에 대한 여러 개의 변이 형태를 가질 수 있음 - 통사론(syntax)
- 단어가 결합하여 구와 문장을 형성하는 규칙/방법을 연구하는 학문
- Syntax: 원래 그리스어. “함께 배열하다”, 즉 배열을 뜻함
- 문장을 선형 구조상에서, 구성요소의 연속 또는 나열된 배열 순서에 관한 정확한 분석을 위해 노력함
- 문법 규칙
- 문법 규칙은 언어의 올바른 어순을 결정함
- 문법 규칙은 단어 그룹의 의미와 단어의 배열사이의 관계를 정의함
- 문법 규칙은 주어와 목적어 같은 문장 내의 문법적 관계를 명시함
- 문법 규칙은 문장이나 구문이 난해할 때 단어의 결합이 의미와 어떻게 연관되는지를 설명함
- 심층 구조와 표층 구조(Deep vs. Surface structure)
- 심층구조: 화자가 문장에 대해 갖는 추상적인 정보를 담은 구조
- 표층 구조: 실생활에서 사용하는 단어들의 규칙적인 구조
- 서로 다른 표층 구조(surface structure)를 가지는 예) 능동/수동 : 영어문장으로서의 통사형식에 차이가 있음
-> 그러나, 심층 구조(deep structure)에서는 동일하다고 할 수 있음
- 두 문장이 공통으로 가지는 기본 구성성분, 즉 ‘명사구+동사+명사구’ 가 표시될 수 있는 기저 구조
- 구조적 모호성(Structural Ambiguity)
- 동일한 표층구조를 가지는 두 개의 상이한 기저 구조가 있을 수 있음
- 두 개의 서로 다른 심층 구조
- Annie has an umbrella and she bumped into a man with it 애니는 우산을 갖고 있어서, 그것으로 남자를 때렸다
- Annie bumped into a man and the man happened to be carrying an umbrella 애니는 한 남자를 때렸는데, 그 남자는 우산을 가지고 있었다
-> 구조적 모호성이 있는 표층구조
- “Annie bumped into a man with an umbrella”
⇒ 하나의 표층구조가 각각의 다른 심층구조로 표시되어 서로 다른 두 가지 해석을 기저에 가지고 있음
- 반복(Recursion)
- 문법규칙은 반복(recursion)이라는 중요한 속성을 가짐. 몇 번이고 반복되는 반복규칙은 구조를 생성하는 데 여러 번 적용되는 특성을 가짐
- 문장 속으로 다른 문장을 넣을 수 있음
- 구 구조규칙(Phrase Structure Rules)
- 특정 구의 구조가 하나 또는 특정된 순서로 늘어선 여러 개의 구성요소들로 이루어진다는 점을 표현
=> 매우 많은 수의 문장을 생성할 수 있도록 함
- 어휘규칙(Lexical Rules)
- 구 구조규칙은 구조를 생성함
- 구 구조규칙의 기본 단위는 품사기호 (N, PN, Pro, V, Art, Prep, Adv, Adj)
- 어휘(lexical)를 구 구조규칙의 기본 단위인 품사기호로 변환하는 규칙이 필요함
- 변형규칙(Transformational rules)
- 앞에서 정의한 구 구조규칙을 따르면 아래 두 번째 문장은 비문
- 구 구조규칙으로부터 도출된 구조에서 구성요소를 바꾸거나 이동시키는 규칙이 필요 => 변형규칙
- 수형도의 일부로부터 구조의 특정 부분을 떼어서 그것을 다른 부분에 가져다 붙임
- 변형규칙을 적용하려면, 어떤 구성요소를 어디로부터 어디로 옮길 것인가를 정해야 함 - 의미론(semantics)
- 의미론은 단어, 구, 그리고 문장의 의미를 연구하는 분야
- 단어, 구, 문장이 사용될 때 전달되는 일반적인 의미를 다룸
- 특별한 상황에서의 말하는 사람이 의도하는 의미는 제외함
- 개념적 의미(conceptual meaning): 단어가 사용될 때 전달되는 기본적, 본질적 의미 성분
- Needle : 가느다란, 뾰족한, 강철도구
- 연상적 의미(associative meaning): 연상(association) 또는 함축(connotation)
- Needle : 아픔, 병, 피, 약, 실, 바느질, 찾기 어려움 : 연상은 사람에 따라 다름
- 어색함 / 이상함 (Oddness)
- 구문 구조는 정상이지만 의미적으로 어색한 문장
- 의미적으로 어색하지 않은 문장
- 의미자질(semantic features)
- 단어의 의미를 자질들의 나열로 표현하는 방법
- 단어의 의미를 차별화하기 위한 기본적인 구성요소
- 단어 의미의 일부분을 자질의 이름과 (+), (-) 기호를 조합하여 표현
- 의미자질은 단어자체를 의미성분을 담고 있는 그릇으로 보는 관점
- 의미역(semantic roles)
- 개별 단어가 가지는 의미자질 분석 이외에, 문장에서 각 단어의 의미적 역할을 분석
- 행위자(Agent) : 특정 행위를 하는 주체 (“the boy”)
- 일반적으로 어떤 행위를 행하는 개체 : 인간, 기계, 바람, 동물, …
- “주어”와 다른 개념
- 대상자(Theme) : 특정 행위에 포함되거나 영향을 받는 개체 (“the ball”)
- 문장에서 행위를 행하지 않는 개체
- “목적어”와 다른 개념
- 동의 관계(synonymn) vs 반의관계(antonym)
- 상하 관계(hyponymy)
- 동음이철어(homophones)
- 서로 다른 단어가 동일한 발음을 가지는 경우
- bare – bear / meat – meet / flour – flower / right – write / to – two – too
- 낫다 – 낮다 / 느리다 – 늘이다 / 다치다 – 닫히다 / 마치다 – 맞치다 / 바치다 – 받치다 / 거름 – 걸음 / 노름 – 놀음 / 반드시 – 반듯이 / 이따가 – 있다가
- 동일한 형태(발음)의 단어가 전혀 관련성이 없는 서로 다른 의미를 가지는 경우
- bat (flying creature) - bat (used in sports) / race (contest of speed) - race (ethnic group) / bank(둑, 제방) – bank (은행) / mole(가죽) – mole(두더지) / pupil(경주) – pupil(눈동자)
- 다의어(polysemy)
- 두 단어 사이에 의미적으로 밀접한 관련성이 있는 경우
- 전체-부분 관계 : car – wheels / house - roofs
- 그릇-내용 관계 : bottle – water / can - juice
- 대표-상징 관계 : king – crown / the president - the White House
- 연어(collocation)
- 문장, 문서에서 두 단어가 같이 출현하는 경우가 많은 경우
< 코퍼스 언어학 (corpus linguistics)>
- 방대한 텍스트 모음에서 특정 단어나 구가 얼마나 빈번하게 사용되는지, 어떤 유형의 연어가 가장 흔한 것인지 발견 - 화용 론(Pragmatics)
- “보이지 않는” 의미 또는 실제로 말하거나 쓰지 않았을지라도 화자가 의미하는 바에 대한 연구
- 언어에서 명시적으로 발화되거나 쓰여지지 않은 의미를 인식하는 방법에 대한 연구
- 화자, 청자, 시간, 장소 등으로 구성된 대화의 문맥(context)과 관련하여, 문장의 의미를 체계적으로 분석하려는 의미론의 한 분야
- 화용 원칙 (Pragmatic principle)
- 대화할 때 “보이지 않는” 의미를 인식하기 위하여, 화자는 반드시 다수의 가정과 기대에 의지하여야 함
- 물리적인 문맥 (physical context)
- 어떤 단어를 만나게 되는 물리적인 위치 (시간, 장소)
- 고층 건물 숲에서 걷다가 “bank” 단어를 보게 된 경우 “financial institution”으로 이해하는 경우가 많음
- 언어적인 문맥 (linguistic context)
- 어떤 단어가 포함된 구 또는 문장에서 사용된 다른 언어의 집합 “Bank”의 언어적인 문맥이 각각 아래와 같을 경우
- 문장에서 “steep”, “overgrown” 등의 단어와 함께 사용된 경우
- 문장에서 “withdraw”, “cash” 등의 단어와 함께 사용된 경우
- 직시 표현(deixis, deictic expression)
- 화자의 문맥(특히 물리적 문맥)을 알아야 해석할 수 있는 표현
- 발화 문맥에 의존하여 사물을 지시하는 표현
- 어떤 문장은 누가 말하는지, 누구에 대해, 언제, 어디서 말하는 지 등을 모르면 해석이 불가능한 경우가 많음
- 직시유형
- 직시의 중심
- 화자가 어떤 대상을 가리킬 때 기준점
1. 제가 찾는 사람은 이 분이 아닙니다.
2. 얘기가 길어질 것 같은데, 여기보다 저 곳이 좋겠어요.
3. 어제 고향에 갔다가 방금 도착했습니다.
- 화자의 상대적 상황에 따른 다른 표현
- 화자가 어떤 사람을 찾고 있을 때, 그 사람이 화자 쪽으로 걸어올 때 => Here she comes.
- 화자가 어떤 사람을 찾고 있을 때, 그 사람이 화자 반대 쪽으로 걸어갈 때 =>There she goes
- 지시(reference)
- 화자가 청자로 하여금 무언가를 알아채도록(identify) 언어를 사용하는 하나의 행위
- 일반적으로 화자는 지시 행위를 하기 위하여 고유명사, 명사구 형태의 지시어, 대명사 등을 사용
- 고유명사 (Chomsky, Jennifer,…) / 명사구 형태의 지시어 (a writer, my friend, the cat) / 대명사 (he, she, it)
- 칭하는 방법이 명확하지 않은 경우 지시를 사용하기도 함
- the blue thing / the icy stuff
- 지시를 위하여 새로운 명칭을 만들기도 함
- 동네에서 motorcycle을 잘 타는 아저씨 ➔ Mr. Kawasaki
- 추론(inference)
- 발화된 내용과 그것의 의미를 연결시키기 위해 청자가 부가적인 정보를 이용하여 해석하는 과정
- 청자의 상식에 기반한 추론 과정을 통해서 발화의 의미를 해석함
- 대용어(Anaphora)
- 이미 소개된 실체에 뒤따르는 지시를 대용어(anaphora)라고 함
- 선행사 (antecedent) : 처음 소개되는 대상
- 대용어 (anaphora) : 앞선 선행사를 지시하는 지시 표현
- 전제(presupposition)
- 화자가 가정하는 것이 진리이거나 청자(또는 독자)가 알고 있는 사실이라는 것을 전제라고 표현
- 화행(speech act)
- 화행은 언어를 통해서 이루어지는 행위, 화자의 발화와 함께 취해지는 행위
- 언어를 통해서 부탁, 약속, 위협, 사과, 선언 등의 화행을 이해하고 이루어 낼 줄 알아야만 어떤 언어를 안다고 말할 수 있다는 것을 의미
- 직접 화행: 화행을 직접적으로 표시
- 간접 화행: 공손함을 기반으로 다른 사람의 체면을 인식하고 배려한다는 것을 보여주는 화행 - 담화론
- 담화 : 한 문장의 범위를 넘어서는 언어 => 대화 또는 여러 문장
- 담화론 : 텍스트와 대화 속에 나타난 언어를 연구하는 학문
- 어떤 언어 표현이 단순히 올바르거나 또는 잘못된 형태와 구조를 인지할 수 있는 것 이상을 이해할 수 있는 능력
- 사람은 비문법적인 문서(text)의 내용을 단순히 거부(reject)하지 않고 의미를 이해하려고 노력
- 문서(text)의 해석에 도달하기 위해, 사람들은 분명 언어적 형태와 구조에 대해 알고 있는 지식에 의존
- 비문법적 text에 대해, 단순히 비문이라고 reject하지 않음. 대신 작가의 의도를 이해하려고 노력
- 결속(Cohesion) : 텍스트에서 의미적 연결성(cohesion)을 표현하는 요소로 단어 개체간 의미론적 연결을 의미
- 접속사 “however”에 의한 결속 : 앞, 뒤 문장 사이의 관계를 표현
- 시제에 의한 결속
- 앞 4개 문장: 과거 시제 -> 사건들 사이의 연결성을 표현
- 마지막 문장: 현재 시제 -> 다른 문장들과 시간적으로 다름을 표현
- 텍스트 내의 결속적인 연관들에 대한 분석은 글쓴이가 어떻게 자기가 하고자 하는 말을 구성하는 지에 대한 통찰력을 제공
- 잘 쓰인 글인가를 판단하는 데 중요한 요인
- 일관성(Coherence)
- 단어 또는 문장의 구조로 표현되지는 않았지만, 인간은 사물/사건 간 일관성(coherence)을찾는 능력이 있음
- 사람들은 세상의 이치에 대한 자신들의 경험에 견주어 해석에 도달하려고 노력
- 우리가 읽은 것을 이해하는 능력은 이 세상에서 우리가 인지하고 경험한 것을 이해하는 전반적인 능력의 아주 작은 일부
- 어휘와 문장에 의해 실제로 표현되지 않았지만, 의미를 가진 연결고리를 만들어 냄 ⇒ 일관성을 찾으려는 시도를 함
- 말로 직접 표현되지 않은 것들 사이에서 일관성을 발견하기 위하여 대화에 지속적으로 참여
- 일관된 연결성이 없음
- 이러한 유형의 대화는 화자의 관례적인 행동이라는 측면에서 이해
- 위 대화를 “화행”을 이용하여 다음의 방법으로 특정 지을 수 있음
- 대화 분석
- 대화(conversation) : 둘 또는 그 이상의 사람들이 돌아가며 말하는 활동
- 한 번에 한 사람만 말을 하고, 말과 말 사이의 침묵을 기피하는 경향
- 대부분의 경우, 참여자들은 다른 사람이 자기의 말이 끝났다는 것을 종료점(completion point)을 표시할 때까지 기다림.
- 화자들은 본인들의 차례를 마쳤다는 것을 여러 가지 방법으로 표시
- 다른 참여자들은 말하는 차례를 얻고 싶다는 것을 역시 다양한 방식으로 표현
- 차례 얻기
- 대화 스타일에 따른 차례 얻기(turn-taking) 전략 ⇒ 대화 중 정상적인 종료점에 도달하는 것을 피함
- 무례(rudeness): 한 화자가 다른 이의 말을 끊을 때
- 수줍음(shyness): 어떤 화자가 계속 말할 기회를 기다리고 있는데 그러한 기회가 쉽게 오지 않을 때
- 협조의 원칙
- 양(quantity)의 격률: 요구되는 만큼 정보성 있는 기여를 하되, 요구되는 것보다 많거나 적지 않게 하라
- 질(quality)의 격률: 당신이 거짓이라고 믿는 것과 그에 대한 증거가 불충분한 것을 말하지 말라
- 상관성(relation)의 격률: 관련된 내용을 말하라
- 방법(manner)의 격률: 분명하고, 간략하게 그리고 조리 있게 말하라
- 함의(Implication)
- 협조의 원칙과 격률을 지침 삼아, 사람들이 어떻게 대화 중 화자가 무엇인가를 ‘암시’하고 있다고 결정할 수 있는지에 대해 생각해 볼 수 있음
자연언어처리의 언어학
- 키워드 분석
- 토큰화(Tokenization)
- 품사 태깅(POS Tagging)
- 구문 분석
- 의미/담화 분석
- 개체명 인식(NER)
- 문법 교정(GEC)
- Dependency Parsing
- Transtiton-based : 두 단어의 의존여부를 순서대로 결정, 점진적으로 구문분석 트리 구성
- Graph-based : 가능한 의존 관계를 모두 고려한 뒤 가장 확률이 높은 구문분석 트리를 선택 - BERT
- 풍부한 언어 정보 계층 구조를 반영
⇒ 가장 아래에는 표면적 특징, 중간에는 구문적 특징, 상단은 의미론적 특징을 보유
⇒ BERT의 표현력이 언어 정보를 잘 포착함
- LIMIT-BERT : Linguistic Informed Multi-Task BERT
- GiBERT: Introducing Linguistic Knowledge into BERT through a Lightweight Gated Injection Method
- DMOps: Data Management Operation and Recipes
'Study > 자연언어처리 NLP' 카테고리의 다른 글
딥러닝 기반의 자연언어처리 (0) | 2025.01.13 |
---|---|
자연언어처리의 역사 (0) | 2025.01.13 |
자연어처리-응용시스템 (0) | 2025.01.13 |
자연언어처리 - 텍스트 전처리 (0) | 2025.01.12 |
자연언어처리란? (1) | 2025.01.10 |