자연어처리-응용시스템

Study/자연언어처리 NLP

자연어처리-응용시스템

김 도경 2025. 1. 13. 10:32

자연어이해 기반

형태소 분석기
- 형태소 분석 : 어떠한 문자열이 주어졌을 때, 그 문자열을 이루고 있는 형태소를 비롯한 어근, 접두사,접미사, 품사(POS, part-of-speech) 등 다양한 언어적 속성의 구조를 파악하는 것
- 품사 태깅 : 형태소 분석을 한 결과의 각 형태소에 품사 태그를 할당하는 과정
- 영어 : 대부분의 형태소가 어절 단위로 구분 가능
- 한국어 : 어절 단위로 형태소가 나뉘지 않음

- 규칙기반 형태소 분석 및 품사 태깅
- 통계기반 형태소 분석 및 품사 태깅
- 딥러닝 기반 형태소 분석 및 품사 태깅

- HMM: Hidden Markov Model
- 통계적 마르코프 모델의 하나로, 어떠한 결과를 야기하는 원인은 은닉(Hidden) 상태인 이전의 여러 연속된 사건들이라고 보는 모델
- 바로 직전의 단계에서만 직접적인 영향을 받고, 이전의 상태들은 연속적이며 내재적으로 담겨있음
- x(t), x(t-1)은 직접적인 연관성이 있는데 반해, y(t), y(t-1)은 그러하지 않기 때문에 이 모델을 이용하여 형태소 분석에 어려움이 발생

- CRF: Conditional Random Field
- 시퀀스 라벨링(어떠한 배열을 입력으로 받으면 그와 같은 길이의 결과 반환)에 많이 이용
- 특징 함수(Feature function)을 정의 ⇒ 문장과 구성하는 단어들의 위치 정보 및 레이블 정보를 입력으로 받아 어떤 레이블이 얼마나 적합한지 계산하여 결과를 출력
- 이전 상태의 값들이 은닉되어 있는 HMM에 비하여 이전 상태를 확인할 수 있다는 것이 장점
- 문맥을 직접적으로 이용하기 때문에 좋은 성능을 보임

- Charater-Level Bidirectional LSTM-CRF
- 띄어쓰기 오류 등의 문제로 한국어 형태소를 처리할 때는 음절 단위를 입력으로 받아 형태소를 분석하는 모델이 좋은 성능을 보임
- 입력: 한국어 음절 단위에 추가 정보로 띄어쓰기 단위 같은 보조적인 특징 값을 이은(concatenate)값
- Bidirectional LSTM: 양 방향으로 앞, 뒤 토큰에 대한 정보를 추가적으로 입력 받아 Bi-LSTM 레이어를 지남. 그 후 형태소별로 음절을 모은 후 한번 더 Bi-LSTM 레이어를 지남
- 출력: 각 형태소에 대한 태깅 결과
개체명 인식
- 사람(Person, PS), 장소(Location, LC), 기관(Organization, OG), 날짜(Date, DT), 이 외에도 분야에 따라 약물, 임상 절차, 생물학적 단백질 등 과 같은 명명된(named) 개체를 텍스트로 식별하는 작업
- 개체명 인식을 통해 특정 명사에 해당하는 태그를 붙임
- [춘향, 홍길동, 이순신 - 사람 / 저녁 8시 - 시간 / 강남, 명랑 – 장소 / 1597년, 9월 16일, 정유재란 - 날짜]
- 의학분야 개체명 인식 시스템(DrugNER, CHEMDNER)

- 태깅 시스템
- NER은 문장을 토큰 단위로 나누고, 이 토큰들을 각각 태깅(tagging)해서 개체명인지 아닌지를 분간함
- 태깅 시스템에는 BIO 시스템과 BIESO 시스템의 두 종류가 있는데, 실무에서는 주로 BIO시스템이 사용되고 있음
- BIO 시스템은 개체명이 시작할 때'B-(begin)'를, 토큰이 개체명 중간에 있을 때는'I-(inside)'를, 토큰이 개체명이 아닐 경우에는 'O(outside)'를 붙여줌
- 한편 BIESO 시스템은 개체명이 시작할 때＇B-(begin)＇를, 토큰이 개체명 중간에 있을 때는＇I-(inside)＇를, 개체명의 마지막에 위치할 때는 ＇E-(end)＇를 붙여줌 또한 하나의 토큰이 곧 하나의 개체명일 때는＇S-(singleton)＇를, 토큰이 개체명이 아닐 경우에는 ＇O(outside)＇를 붙여줌

- 한국어 NER 데이터셋
- 현재는 한국정보통신기술협회(이하 TTA)의 태그 셋 기준이 보편화
- 대부분의 한국어 NER 데이터는 TTA 태그셋의 15개 대분류 또는 150개 소분류를 따라 만들어지고 있음.
정보추출(Information Extraction)
- 비구조적인 문장에서 구조적인 트리플(triple)를 추출하는 태스크
- 트리플이란 두 개체 간의 관계(relation)를 <주어, 관계, 목적어>으로 나타낸 구조로 주어와 목적어의 관계를 내포함
- 문서 내 단어 간의 대상 관계를 파악하여 의미적 관계를 추출하고 이에 대해 응답하는 것을 중점을 둠

- 정보추출 시스템 구조
- 입력된 문서를 문장단위로 분할
- 각 문장을 토큰화
- 품사 태깅을 통해 각 단어의 품사를 파악
- 품사를 기준으로 엔티티를 추출
- 술어, 주어, 객체에 대한 관계파악을 위해 텍스트 에서 서로 가까이 있는 엔티티쌍의 특정 패턴을 추출

- 규칙 기반 접근
- 문장에서 문법적 속성에 대한 규칙 세트를 정의한 다음 규칙을 사용하여 정보를 추출
- 사람이 직접 규칙을 생성하며, 비정형 텍스트에서 언어적인 분석을 통해 표현되는 형식을 찾아 관계 튜플(규칙)을 정의하고, 정의된 규칙을 사용하여 비정형 텍스트로부터 관계 튜플을 추출

- 기계학습 기반 접근
- 사람이 발견한 규칙에 의한 것이 아닌, 다량의 데이터로부터 기계학습 알고리즘이 직접 패턴을 발견해 학습함
- 비교할 수 없을 정도로 많은 데이터를 분석할 수 있기 때문에, 발견하기 어려운 패턴 역시 포착이 가능함

- 그래프 기반 접근
텍스트 분류
- 문장 또는 문서를 입력으로 받아 사전에 정의된 클래스 중에 어디에 속하는지 분류(Classification)하거나 각 데이터를 군집화 (Clustering)하는 과정

- 분류(Classification)
- 지도학습에 속하며, 자료를 자동으로 항목에 맞게 범주화하는 작업

- 군집화(Categorization)
- 비지도학습에 속하며, 정해진 항목이 아닌 항목들 간의 유사 관계에 의하여 스스로 분류

- 텍스트 분류 프로세스

- 감성 분석
- 문장 또는 지문의 감정을 분석하는 것을 의미하며 자연언어처리의 하나의 큰 분야 (예) 영화리뷰 감정분석
- 규칙 기반 모델이나, 확률 모델, 딥러닝 모델을 사용

- 스팸메일 필터링
- 메일에 사용된 텍스트를 분석해서 스팸 여부를 판단

- 대화 의도 분류

- 입력 문장이 어떤 의도인지 분류
- 문장을 입력 받으면 봇은 학습된 문장을 바탕으로 가장 적절한 대화의도를 찾고, 분류된 의도에 따라 적절한 응답을 생성

- 상품 카테고리 분류
- 혐오표현 분류

자연어생성 기반

기계번역
- 기계번역: 번역을 컴퓨터가 빠르게 수행하는 것
- 1995년 알타비스타 사에서 제작한 ‘바벨피쉬’ 번역 서비스: 형편없는 품질로 금방 잊혀짐
- 현재는 마이크로소프트 빙 번역, 구글 번역 등의 온라인 서비스가 활발
- 만들어진 번역 시스템을 오프라인으로 옮겨 여행용으로 사용하는 시도도 있음

-> 문장 x가 주어졌을 때, y의 likelihood를 최대로 만드는 y를 찾는 것이 기계 번역의 목표!

- 번역: 하나의 언어로 쓰인 글을 같은 의미를 나타내는 다른 언어로 변환하는 작업
- 필요성과 중요성에 비해 사람이 직접 할 수 있는 데에는 한계가 있음
- 번역 작업의 난이도가 매우 높음
- 필요한 두 언어쌍을 모두 알고 있는 번역가를 구하기 어려움
- 번역의 속도도 느린 편

- 기계 번역의 흐름

- 규칙 기반 기계번역

- 통계 기반 기계 번역(SMT: Statistical Machine Translation)
- 두언어의 parallel corpus에서 Co-occurrence 기반의 통계정보를 바탕으로 번역을 수행함
- 충분한 학습 데이터를 제공받을시, 규칙 기반 기계번역 보다 더 뛰어난 성능
- 처음에는 단어(word) 단위로 번역을 수행
- 여러 개의 단어 묶음인 구(Phrase) 단위의 번역 방식 제안: 단어 단위 보다 잘 번역
- 구(Phrase)내에 변수 개념을 도입한 것이 Hierarchical PhraseBased SMT
- Prereordering-based SMT는 번역하기 전 어순을 바꾸는 작업
- Syntax Base SMT는 Hierarchical Phrase-Based SMT에서 eat X 를 eat NP(명사구) 로 변경함. => 즉, 모든 구가 올 수 있는 것이 아닌 명사구만 올 수 있다고 한정 지어 불필요한 번역 후보를 사전에 제거

- 신경망 기반 기계 번역(NMT: Neural Machine Translation)
- Sequence to Sequence: 기본적으로 인코더-디코더 구조
- 인코더를 통해 입력 문장을 해석, 디코더 를 통해 번역문장 리턴

- 기계번역의 발전
질의응답
- 과거 정보 검색 기반 질의응답
- 딥러닝 이전엔 주로 정보검색 기반 질의응답 시스템 이용
- 자연언어처리 분야의 기술 발달과 함께 딥러닝 기반 질의응답 시스템이 여러 형태로 응용
- 질문처리 – 문서처리 – 정답처리 단계의 세부 모듈들로 구성
- 질문 처리단계: 질문유형 분류 및 정답 유형 분류
- 문서 처리단계: 정답을 포함, 관련성이 높은 문서 혹은 문장을 검색
- 정답 처리단계: 검색된 문서 혹은 문장에서 정답 후보에 해당하는 개체, 어휘, 구 등을 추출

- Machine Reading Comprehension
- IR + QA
- 정보검색(Information Retrieval) 시스템: 책장에서 적절한 책을 찾아주는 역할
- 질의응답(Question Answering) 시스템: 책을 찾아 페이지까지 펴서 찾는 정보를 제시해주는 역할
- Visual Question Answering
- Semantic and Visual understanding이 함께 요구되는 작업. 이미지에 근거하는 질문과 정답으로 데이터가 구성됨
- Large Vision-Language Model
- New VQA Task
- 기존에는 Single-turn QA로 이루어져 있어 실제로 human-interactive하다고 할 수 없음
- 최근 multi-modal 확장 연구로 Visual Dialog, Video QA와 같은 task가 제안됨
대화시스템
- 목적 지향 대화 시스템 (Task-Oriented Dialogue System)
- 특정한 목적 또는 작업을 수행하는 것이 목표
- 작업으로는 음식 배달, 항공권 예약, 식당 및 호텔 예약, 음악 검색 기능
- 파이프라인 방식(Pipeline Methods)과 종단 간 학습 (End-to-End learning)으로 분류
- 딥러닝 연구가 활발해진 이래로 종단 간 학습에 관한 연구가 많이 시도
- 파이프라인 방식의 대화 시스템도 좋은 성능을 보이고 있음

- 파이프라인 방식 (Pipeline Methods)
- 자연어 이해
- 자연어 이해 모듈에서는 도메인 확인 (Domain Identification), 의도 파악 (Intent Detection), 슬롯 채우기 (Slot Filling) 을 진행하여 사전에 정의된 슬롯을 채워 넣음
- 토큰 단위의 슬롯에 대해서 개체명 인식 작업과 유사하게 BIO(Begin, Inside, Outside) 스키마를 사용하여 각 엔티티를 정의하고 이를 찾아내는 작업을 진행함
- 대화 상태 추적 (DST : Dialog State Tracking)
- 현재 들어온 발화와 지금까지 사용자와 시스템이 나눈 대화 히스토리 정보를 반영하여 대화 상태를 추적함
- 발화자 의도, 목표와 요청을 정확하게 추적 하는 것이 대화 상태 추적 모듈의 역할임
-> 자연어 생성: 발화정보로부터 자연어 문장 생성
-> 음성 합성: 자연어 문장의 음성 생성

- 종단 간 학습 (End-to-End Learning)
- 기존의 파이프라인 방식의 한계
- 도메인에 관련된 hand-crafted 지식 필요, 새로운 도메인으로의 확장이 어려움
- 종단간 모델이 파이프라인 방식의 대안이 될 수 있음
- 확장성이 좋음, 많은 양의 대화 데이터 셋이 필요하다는 단점이 존재
- 특정 도메인에 해당하는 시스템 액션 템플릿을 정의하여 적은 양의 학습 데이터로도 학습이 가능할 수 있게 모델이 제안

- 일상 대화 시스템 (Open Domain Dialogue, Chitchat)
- 검색 기반 방식 (Retrieval-based Methods)
- 이전 대화 내용 또는 외부 지식 풀에서의 검색을 통해, 응답에 적합한 지식 또는 발화를 검색함
- 기존 대화 응답 집합에서 가장 관련 있는 응답을 생성하므로 생성 기반 모델보다 정확도 측면에서는 좋음, but 존재 X => 잘못된 응답
- 생성 기반 방식 (Generative Methods)
- 초기의 생성 기반 방식의 모델은 RNN기반의 인코더와 디코더로 구성
- 기계 번역에서의 Sequence-to-Sequence(Seq2Seq)모델과 유사
- Seq2Seq의 단점을 보완하기 위해 발화 별 인코더의 은닉층을 다음 발화의 은닉층에 가중치를 전달해주는 방식으로 대화의 발화 계층을 두어 학습하는 모델 제안
- 검색-생성 혼합 방식 (Hybrid Methods)
문서 요약
- 주요 방향
- 문서에서 추출할까? 아니면 새로 만들까? ⇒ Extractive vs Abstractive
- 어떻게 여러 개의 문서에서 단일 주제에 관한 공통 요약을 만들까? ⇒ Multi Documents Summarization
- 텍스트 길이가 지나치게 긴 문서는 어떻게 처리하지? ⇒ Long Documents Summarization
- 요약문 평가 ⇒ ROUGE

- 추출 요약(Extractive Summarization)
- 추출 요약은 입력 텍스트의 일부(단어, 문장 등)를 그대로 재사용
- 본문 내에서 전체를 대표하는 핵심 문장을 찾는 것이 관건임
- 추상적 요약(Abstractive Summarization)
- 원본 텍스트의 정보를 다른 표현으로 재구성함
- 의미적 표현, 추론, 자연어 생성 등 관련 문제가 상대적으로 어렵기 때문에 고난도 작업에 속함
- Multi documents summarization
- 복수개의 문서를 요약하는 작업
- 다양한 저자들의 서로 다른 관점의 글들을 요약하는 것으로 더 어려움
- 여러 문서 중 어떻게 하면 중요한 정보를 식별하고 중복 정보를 필터링하는 것에 초점
- Long documents summarization
- 길이가 매우 긴 문서를 요약하는 작업으로 다양한 접근 방식
- Divide-and-conquer: 통계적 방법으로 extractive summary를 만들어 중요한 문장만 추린 후 모델의 입력으로 사용하는 방법도 존재함
- Attention Modeling: 연산량을 줄이기 위해 기존 모든 단어 간 조합을 살펴보는 full attention 방식(quadratic) 대신 sparse attention(linear)을 도입 => 최대 8배까지 긴 문장을 요약
- Unsupervised Summarization
- 문장의 상대적 중요도를 측정하는 중요도 점수를 기반으로 주어진 문장에서 중요한 부분을 추출
- 중요도 점수를 기반으로 주어진 문장의 중요한 부분을 찾음
- 문서가 그래프로 표현되며, 문서 내 문장은 node로, 노드와 노드 간의 관계는 edge의 가중치로 표현

특이한 분야

Hate Speech
- 정의: 인터넷 상에서 발생하는 혐오 발언 및 공격적 표현을 자동으로 탐지하고 분류하는 기술
⇒ 이를 위해 학습 데이터를 사용하여 hate/offensive speech와 그렇지 않은 언어를 분류하는 분류 모델을 학습시키고, 이를 새로운 텍스트에 적용
- Hate speech는 인종, 성적 지향, 종교, 출신 국가, 성별 등 인적 특성에 따라 사람들을 비하하거나 공격하는 언어를 말함
⇒ 이러한 언어는 사람들의 정서를 상하게 하고, 그 대상이 상처를 받을 수 있음

- Counter Speech Generation
- 정의: 혐오 및 허위정보가 내재, 외재된 대화 또는 문장들에 대해 모델이 신뢰성 있는 근거가 내포된 문장을 생성함으로써 적절하게 대응할 수 있도록 하는 Task
- 이를 위해 일반적으로 인간과 유사한 대화를 생성하고 허위 정보나 혐오적인 내용을 확인한 뒤 생성 기반의 모델이 이에 적극적인 방식으로 반박/대응하도록 함.
- 즉, 대화를 통해 부정확하며 편견이 존재하는 내용을 바로잡고 신뢰성 있는 정보를 제공함으로써 대화 상대를 설득, 교화시키고자함

- Sarcasm Detection
- 정의: 텍스트 또는 음성 데이터에서 풍자적 의미나 반어법적 말을 감지하고 인식하는 Task
- 일상 대화에서 인간은 종종 비꼬거나 반어법을 활용한 말을 사용하는 경우가 있음. 하지만 이러한 유형의 언어는 모델이 이해하기에 어려운 경우가 많음
- 따라서 Sarcasm detection은 인공지능 분야에서 매우 중요한 문제 중 하나로 인식되고 있음

- 활용분야
- Sarcasm detection 기술은 아래와 같이 다양한 분야에서 사용될 수 있음
- 소셜 미디어에서는 사용자가 남긴 댓글이 비꼬는 의미를 갖고 있는 경우, 해당 댓글에 대해 자동으로 경고를 표시하는 등의 용도로 사용될 수 있음
- 비즈니스 분야에서는 고객 응대 챗봇이 고객의 말에 대해 올바른 대답을 하기 위해서 비꼬는 말을 인식할 수 있는 능력이 요구됨
Deception Detection
- Fake News Detection
- 정의: 인터넷 상에서 유포되는 정보 중에서, 사실과 다른 정보, 혹은 과장된 정보를 식별하고 분류하는 Task
- 가짜 뉴스는 SNS의 보급과 함께 증가하면서, 인터넷 상에서 퍼져나가는 정보 중에서 진실을 구분하는 것이 매우 어려워짐
- Fake News Detection은 기존의 분류 기술을 활용하여 구현됨. 이때, 모델은 다양한 특징을 활용하여 가짜 뉴스와 진실의 차이를 구분할 수 있음

- Fact Checking
- 정의: 미디어나 인터넷 상에서 유포되는 정보의 진실성을 확인하는 Task
- Fact Checking의 목표는 주어진 정보의 진실성을 판단하고, 진실과 거짓을 구분하는 것임
- 최근 SNS의 보급과 함께 가짜 뉴스, 허위 정보, 진실과 거리가 먼 정보가 증가하면서 이러한 작업의 중요성이 더욱 증가함
Machine Translation
- Quality Estimation
- 정의: 기계 번역 (Machine Translation; MT)된 문장이 얼마나 잘 번역을 하고있는지의 품질을 예측하는 Task
- 즉, 번역된 문장이 얼마나 자연스럽고 정확한지를 측정하는 기술

- Automatic Post Editing
- 정의: 기계 번역의 출력물에서 번역 오류, 문법적 오류 등을 자동으로 수정하는 Task
- 기계 번역의 출력물에서 발생하는 오류나 불완전한 부분을 인식하고 자동으로 수정하여 번역 품질을 개선하기 위한 기술
- APE는 번역 시스템에서 발생하는 일반적인 오류를 수정함 문법, 단어 선택, 의미 전달, 일관성 등
- APE 시스템은 이러한 오류를 식별하고, 기계 번역의 출력물을 수정하는 방법을 결정함
- 문장 구조, 어휘, 문법 등을 분석하여 번역된 문장을 자동으로 수정하는 기술
- 이전 번역 결과를 고려하여 수정을 수행하는 기술 등

- Word-Level AutoCompletion
- 정의: 소스 문장, 번역 컨텍스트 및 사람이 입력한 문자 시퀀스가 주어지면 대상 단어를 예측하는 Task
⇒ WLAC은 CAT 시스템에서 번역 효율성을 높이는 데 중요한 역할
- 원본 문장(src), 주변 문맥(context)과 주어지는 context type을 기반으로 번역시 나올 단어를 예측

- Chat Translation
- 정의: 채팅, 일상대화 분야의 구어체에 대해 기계번역을 수행하는 Task
- 기계번역과 유사하지만 은어, 줄임말 등이 빈번하게 포함되는 채팅형식의 구어체에 집중함
Dialogue
- Persona-grounded Dialogue
- 정의: 개별 사용자가 갖는 여러 개인적 특성을 고려해 personalized된 대화를 생성하는 Task
- 기존의 대화 모델들은 대화 내용이나 주제에 대한 정보만 고려하여 응답을 생성함
- Persona-grounded dialogue는 인간과 모델 간의 대화에서 인간의 개인적인 특징이나 성격 등을 반영한 대화를 의미함

- Persuasive Dialogue
- 정의: 상대방을 설득하기 위한 목적의 대화. 모델이 상대방을 설득하고 자신의 주장을 전달하기 위해 응답 발화를 생성하는 Task
- Persuasive dialogue는 다양한 분야에서 활용될 수 있음 ⇒ 예를 들어, 광고, 마케팅, 정치, 교육 등에서 상품, 서비스, 정책, 아이디어 등을 전달하고 상대방을 설득하기 위해 사용
- Persuasive dialogue는 대화 시스템이 더욱 높은 수준의 상호작용과 대화 효과를 제공하는 데 유용
- 이를 통해 대화 시스템은 상대방을 더욱 효과적으로 설득할 수 있으며, 전달하고자 하는 메시지가 더욱 잘 전달됨

- Dialogue Summarization
- 정의: 대화 기록이나 대화 데이터를 기반으로 중심 정보들을 재구성하여 요약하는 Task
- 대화의 효율성을 높이기 위해 필요한 기술로, 대화 기록이나 대화 데이터가 많은 경우에는 일반적으로 요약된 버전으로 제공하는 것이 효과적임
- 대화 요약은 다양한 분야에서 활용되고 있음

- Knowledge-grounded Dialogue
- 정의: 대화 시 외부정보가 필요한 경우, Pre-train model외에 외부 지식을 별도로 활용하여 자연스럽고 전문적인 정보를 제공할 수 있는 대화를 생성하는 Task
- Pre-trained model이 가지지 못하는 factual knowledge를 부여하여 대화의 지식 정확성을 향상하기 위해 필요함
기타
- Question Generation
- 정의: 주어진 지문으로 부터 도출될 수 있는 질문들을 생성하는 Task
- 문서에서 중요한 정보를 추출하거나 패턴을 파악하여 정보의 누락, 추가, 명확화 등의 관점에서 적절한 질문을 생성하는 것이 일반적임
- “질문을 하는 것” 은 언어학, 교육학 적으로도 매우 중요한 행위로 다른 여러 NLP 분야에서도 적극적으로 활용되는 추세

- Document-level Relation Extraction
- 정의: 문서 전체에서 개체(entity)에 대한 속성(attribute)과 관계(relation)를 예측하는 Task
- Relation Extraction은 지식 그래프(Knowledge Graph; KG)를 구축하는 핵심 구성 요소이며, structured search, sentiment analysis, question answering, summarization과 같은 자연어 처리 응용 프로그램에 매우 중요하게 작용함
- Document-level relation extraction은 일반적인 Sentence-level relation extraction과 달리, 문서 전체에서 관계를 파악하기 때문에 보다 넓은 범위의 정보를 다룰 수 있음.

- Instruction Tuning
- 정의: 사람이 원하는 방식의 대답을 이끌어내기 위한 instruction을 통해 대규모 언어 모델(LLM)을 미세 조정하는 데 사용되는 방법
- 언어 모델의 동작을 안내하고 보다 정확하고 상황에 적합하며 제어된 응답을 생성하는 것을 목표
- 명령어-응답 쌍으로 구성된 추가 학습 데이터를 통합. 학습 중에 모델에 대한 명시적인 지침 역할을 하여 모델이 응답을 생성하는 동안 특정 지침을 이해하고 따를 수 있도록 함

- LLM Evaluation
- 정의: Large Language Model의 유창성, 일관성, 관련성, 정확성 등 모델 성능의 다양한 측면을 평가해 동작에 대한 인사이트를 얻고 개선점을 파악하고자하는 분야
- LLM이 여럿 출현함에 따라 해당 모델의 성능을 다각적으로 분석, 측정하는 것이 매우 중요해짐
- 대규모 언어 모델은 방대한 양의 텍스트 데이터에서 학습하기 때문에 의도치 않게 학습 데이터에 존재하는 편향이 포함될 수 있음. 잠재적인 사회적 영향을 이해하고 모델 배포와 관련된 윤리적 문제를 해결하는 데 도움 => 언어 모델에 존재하는 편향을 식별하고 완화하는 데 도움
- 궁극적으로 보다 신뢰할 수 있고 편향되지 않으며 효과적인 언어 모델을 개발할 수 있도록 함

- Huggingface Open LLM
- 사용자가 다양한 작업에서 다양한 대규모 언어 모델의 성능을 평가하고 비교할 수 있도록 해주는 Huggingface Platform
- Common sense, QA, Open domain Knowledge 등에 관한 지식에 대한 포괄적인 평가로 구성
한국어 관련 Task
- 고전어 데이터셋 : Ancient Korean Neural Machine Translation
- 고전어 데이터셋 : 조선왕조실록/일성록 기반 한자 벤치마크 데이터 셋
- 고전어 데이터셋 : 미번역된 한자 고문헌을 번역한 데이터
- 케어콜 데이터셋 : Building a Role Specified Open-Domain Dialogue System Leveraging Large-Scale Language Models (NAACL 2022)
- 혐오 발언 탐지 데이터셋 : BEEP! Korean Corpus of Online News Comments for Toxic Speech Detection
- 혐오 발언 탐지 데이터셋 : APEACH: Attacking Pejorative Expressions with Analysis on Crowd-Generated Hate Speech Evaluation Datasets (EMNLP 2022 Findings)
- 혐오 발언 탐지 데이터셋 : Korean UnSmile Dataset
- 혐오 발언 탐지 데이터셋 : KOLD: Korean Offensive Language Dataset (EMNLP 2022)
- 쓰기 평가 데이터셋 : 딥러닝 기반 언어모델을 이용한 한국어 학습자 쓰기 평가의 자동 점수 구간 분류 -KoBERT와 KoGPT2를 중심으로-
- 문법 교정 데이터셋 : Towards standardizing Korean Grammatical Error Correction: Datasets and Annotation
문법 교정 데이터셋 : K-NCT: Korean Neural Grammatical Error Correction Gold-Standard Test Set Using Novel Error Type Classification Criteria

저작자표시 비영리 변경금지

'Study > 자연언어처리 NLP' 카테고리의 다른 글

딥러닝 기반의 자연언어처리 (0)	2025.01.13
자연언어처리의 역사 (0)	2025.01.13
자연언어처리 - 텍스트 전처리 (0)	2025.01.12
자연언어처리 - 언어학 (1)	2025.01.10
자연언어처리란? (1)	2025.01.10

현재글자연어처리-응용시스템

개발 성장 노트

Upstage AI Lab 5기와 코딩관련 공부에 대해서 기록을 하기 위한 블로그입니다.

업스테이지패스트캠퍼스, 패스트캠퍼스업스테이지부트캠프, 머신러닝, 패스트캠프업스테이지에이아이랩, 패스트캠퍼스업스테이지에이아이랩, CNN, ai 부트캠프, 자연언어처리, 패스트 캠퍼스, 업스테이지패스트캠프, 부트캠프, UpstageAILab, 딥러닝, cv, 패스트캠퍼스AI부트캠프, ml, 국비지원, 인공지능, 국비지원취업, 패스트캠퍼스,

Today :
Yesterday :

개발 성장 노트

자연어처리-응용시스템

'Study > 자연언어처리 NLP' 카테고리의 다른 글

'Study/자연언어처리 NLP'의 다른글

티스토리툴바

« 2025/01 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

자연어처리-응용시스템

'Study > 자연언어처리 NLP' 카테고리의 다른 글

'Study/자연언어처리 NLP'의 다른글

관련글

티스토리툴바