자연어이해 기반
- 형태소 분석기
- 형태소 분석 : 어떠한 문자열이 주어졌을 때, 그 문자열을 이루고 있는 형태소를 비롯한 어근, 접두사,접미사, 품사(POS, part-of-speech) 등 다양한 언어적 속성의 구조를 파악하는 것
- 품사 태깅 : 형태소 분석을 한 결과의 각 형태소에 품사 태그를 할당하는 과정
- 영어 : 대부분의 형태소가 어절 단위로 구분 가능
- 한국어 : 어절 단위로 형태소가 나뉘지 않음
- 규칙기반 형태소 분석 및 품사 태깅
- 통계기반 형태소 분석 및 품사 태깅
- 딥러닝 기반 형태소 분석 및 품사 태깅
- HMM: Hidden Markov Model
- 통계적 마르코프 모델의 하나로, 어떠한 결과를 야기하는 원인은 은닉(Hidden) 상태인 이전의 여러 연속된 사건들이라고 보는 모델
- 바로 직전의 단계에서만 직접적인 영향을 받고, 이전의 상태들은 연속적이며 내재적으로 담겨있음
- x(t), x(t-1)은 직접적인 연관성이 있는데 반해, y(t), y(t-1)은 그러하지 않기 때문에 이 모델을 이용하여 형태소 분석에 어려움이 발생
- CRF: Conditional Random Field
- 시퀀스 라벨링(어떠한 배열을 입력으로 받으면 그와 같은 길이의 결과 반환)에 많이 이용
- 특징 함수(Feature function)을 정의 ⇒ 문장과 구성하는 단어들의 위치 정보 및 레이블 정보를 입력으로 받아 어떤 레이블이 얼마나 적합한지 계산하여 결과를 출력
- 이전 상태의 값들이 은닉되어 있는 HMM에 비하여 이전 상태를 확인할 수 있다는 것이 장점
- 문맥을 직접적으로 이용하기 때문에 좋은 성능을 보임
- Charater-Level Bidirectional LSTM-CRF
- 띄어쓰기 오류 등의 문제로 한국어 형태소를 처리할 때는 음절 단위를 입력으로 받아 형태소를 분석하는 모델이 좋은 성능을 보임
- 입력: 한국어 음절 단위에 추가 정보로 띄어쓰기 단위 같은 보조적인 특징 값을 이은(concatenate)값
- Bidirectional LSTM: 양 방향으로 앞, 뒤 토큰에 대한 정보를 추가적으로 입력 받아 Bi-LSTM 레이어를 지남. 그 후 형태소별로 음절을 모은 후 한번 더 Bi-LSTM 레이어를 지남
- 출력: 각 형태소에 대한 태깅 결과 - 개체명 인식
- 사람(Person, PS), 장소(Location, LC), 기관(Organization, OG), 날짜(Date, DT), 이 외에도 분야에 따라 약물, 임상 절차, 생물학적 단백질 등 과 같은 명명된(named) 개체를 텍스트로 식별하는 작업
- 개체명 인식을 통해 특정 명사에 해당하는 태그를 붙임
- [춘향, 홍길동, 이순신 - 사람 / 저녁 8시 - 시간 / 강남, 명랑 – 장소 / 1597년, 9월 16일, 정유재란 - 날짜]
- 의학분야 개체명 인식 시스템(DrugNER, CHEMDNER)
- 태깅 시스템
- NER은 문장을 토큰 단위로 나누고, 이 토큰들을 각각 태깅(tagging)해서 개체명인지 아닌지를 분간함
- 태깅 시스템에는 BIO 시스템과 BIESO 시스템의 두 종류가 있는데, 실무에서는 주로 BIO시스템이 사용되고 있음
- BIO 시스템은 개체명이 시작할 때'B-(begin)'를, 토큰이 개체명 중간에 있을 때는'I-(inside)'를, 토큰이 개체명이 아닐 경우에는 'O(outside)'를 붙여줌
- 한편 BIESO 시스템은 개체명이 시작할 때'B-(begin)'를, 토큰이 개체명 중간에 있을 때는'I-(inside)'를, 개체명의 마지막에 위치할 때는 'E-(end)'를 붙여줌 또한 하나의 토큰이 곧 하나의 개체명일 때는'S-(singleton)'를, 토큰이 개체명이 아닐 경우에는 'O(outside)'를 붙여줌
- 한국어 NER 데이터셋
- 현재는 한국정보통신기술협회(이하 TTA)의 태그 셋 기준이 보편화
- 대부분의 한국어 NER 데이터는 TTA 태그셋의 15개 대분류 또는 150개 소분류를 따라 만들어지고 있음. - 정보추출(Information Extraction)
- 비구조적인 문장에서 구조적인 트리플(triple)를 추출하는 태스크
- 트리플이란 두 개체 간의 관계(relation)를 <주어, 관계, 목적어>으로 나타낸 구조로 주어와 목적어의 관계를 내포함
- 문서 내 단어 간의 대상 관계를 파악하여 의미적 관계를 추출하고 이에 대해 응답하는 것을 중점을 둠
- 정보추출 시스템 구조
- 입력된 문서를 문장단위로 분할
- 각 문장을 토큰화
- 품사 태깅을 통해 각 단어의 품사를 파악
- 품사를 기준으로 엔티티를 추출
- 술어, 주어, 객체에 대한 관계파악을 위해 텍스트 에서 서로 가까이 있는 엔티티쌍의 특정 패턴을 추출
- 규칙 기반 접근
- 문장에서 문법적 속성에 대한 규칙 세트를 정의한 다음 규칙을 사용하여 정보를 추출
- 사람이 직접 규칙을 생성하며, 비정형 텍스트에서 언어적인 분석을 통해 표현되는 형식을 찾아 관계 튜플(규칙)을 정의하고, 정의된 규칙을 사용하여 비정형 텍스트로부터 관계 튜플을 추출
- 기계학습 기반 접근
- 사람이 발견한 규칙에 의한 것이 아닌, 다량의 데이터로부터 기계학습 알고리즘이 직접 패턴을 발견해 학습함
- 비교할 수 없을 정도로 많은 데이터를 분석할 수 있기 때문에, 발견하기 어려운 패턴 역시 포착이 가능함
- 그래프 기반 접근
- 텍스트 분류
- 문장 또는 문서를 입력으로 받아 사전에 정의된 클래스 중에 어디에 속하는지 분류(Classification)하거나 각 데이터를 군집화 (Clustering)하는 과정
- 분류(Classification)
- 지도학습에 속하며, 자료를 자동으로 항목에 맞게 범주화하는 작업
- 군집화(Categorization)
- 비지도학습에 속하며, 정해진 항목이 아닌 항목들 간의 유사 관계에 의하여 스스로 분류
- 텍스트 분류 프로세스
- 감성 분석
- 문장 또는 지문의 감정을 분석하는 것을 의미하며 자연언어처리의 하나의 큰 분야 (예) 영화리뷰 감정분석
- 규칙 기반 모델이나, 확률 모델, 딥러닝 모델을 사용
- 스팸메일 필터링
- 메일에 사용된 텍스트를 분석해서 스팸 여부를 판단
- 대화 의도 분류 - 입력 문장이 어떤 의도인지 분류
- 문장을 입력 받으면 봇은 학습된 문장을 바탕으로 가장 적절한 대화의도를 찾고, 분류된 의도에 따라 적절한 응답을 생성
- 상품 카테고리 분류
- 혐오표현 분류
자연어생성 기반
- 기계번역
- 기계번역: 번역을 컴퓨터가 빠르게 수행하는 것
- 1995년 알타비스타 사에서 제작한 ‘바벨피쉬’ 번역 서비스: 형편없는 품질로 금방 잊혀짐
- 현재는 마이크로소프트 빙 번역, 구글 번역 등의 온라인 서비스가 활발
- 만들어진 번역 시스템을 오프라인으로 옮겨 여행용으로 사용하는 시도도 있음
-> 문장 x가 주어졌을 때, y의 likelihood를 최대로 만드는 y를 찾는 것이 기계 번역의 목표!
- 번역: 하나의 언어로 쓰인 글을 같은 의미를 나타내는 다른 언어로 변환하는 작업
- 필요성과 중요성에 비해 사람이 직접 할 수 있는 데에는 한계가 있음
- 번역 작업의 난이도가 매우 높음
- 필요한 두 언어쌍을 모두 알고 있는 번역가를 구하기 어려움
- 번역의 속도도 느린 편
- 기계 번역의 흐름
- 규칙 기반 기계번역
- 통계 기반 기계 번역(SMT: Statistical Machine Translation)
- 두언어의 parallel corpus에서 Co-occurrence 기반의 통계정보를 바탕으로 번역을 수행함
- 충분한 학습 데이터를 제공받을시, 규칙 기반 기계번역 보다 더 뛰어난 성능
- 처음에는 단어(word) 단위로 번역을 수행
- 여러 개의 단어 묶음인 구(Phrase) 단위의 번역 방식 제안: 단어 단위 보다 잘 번역
- 구(Phrase)내에 변수 개념을 도입한 것이 Hierarchical PhraseBased SMT
- Prereordering-based SMT는 번역하기 전 어순을 바꾸는 작업
- Syntax Base SMT는 Hierarchical Phrase-Based SMT에서 eat X 를 eat NP(명사구) 로 변경함. => 즉, 모든 구가 올 수 있는 것이 아닌 명사구만 올 수 있다고 한정 지어 불필요한 번역 후보를 사전에 제거
- 신경망 기반 기계 번역(NMT: Neural Machine Translation)
- Sequence to Sequence: 기본적으로 인코더-디코더 구조
- 인코더를 통해 입력 문장을 해석, 디코더 를 통해 번역문장 리턴
- 기계번역의 발전
- 질의응답
- 과거 정보 검색 기반 질의응답
- 딥러닝 이전엔 주로 정보검색 기반 질의응답 시스템 이용
- 자연언어처리 분야의 기술 발달과 함께 딥러닝 기반 질의응답 시스템이 여러 형태로 응용
- 질문처리 – 문서처리 – 정답처리 단계의 세부 모듈들로 구성
- 질문 처리단계: 질문유형 분류 및 정답 유형 분류
- 문서 처리단계: 정답을 포함, 관련성이 높은 문서 혹은 문장을 검색
- 정답 처리단계: 검색된 문서 혹은 문장에서 정답 후보에 해당하는 개체, 어휘, 구 등을 추출
- Machine Reading Comprehension
- IR + QA
- 정보검색(Information Retrieval) 시스템: 책장에서 적절한 책을 찾아주는 역할
- 질의응답(Question Answering) 시스템: 책을 찾아 페이지까지 펴서 찾는 정보를 제시해주는 역할
- Visual Question Answering
- Semantic and Visual understanding이 함께 요구되는 작업. 이미지에 근거하는 질문과 정답으로 데이터가 구성됨
- Large Vision-Language Model
- New VQA Task
- 기존에는 Single-turn QA로 이루어져 있어 실제로 human-interactive하다고 할 수 없음
- 최근 multi-modal 확장 연구로 Visual Dialog, Video QA와 같은 task가 제안됨 - 대화시스템
- 목적 지향 대화 시스템 (Task-Oriented Dialogue System)
- 특정한 목적 또는 작업을 수행하는 것이 목표
- 작업으로는 음식 배달, 항공권 예약, 식당 및 호텔 예약, 음악 검색 기능
- 파이프라인 방식(Pipeline Methods)과 종단 간 학습 (End-to-End learning)으로 분류
- 딥러닝 연구가 활발해진 이래로 종단 간 학습에 관한 연구가 많이 시도
- 파이프라인 방식의 대화 시스템도 좋은 성능을 보이고 있음
- 파이프라인 방식 (Pipeline Methods)
- 자연어 이해
- 자연어 이해 모듈에서는 도메인 확인 (Domain Identification), 의도 파악 (Intent Detection), 슬롯 채우기 (Slot Filling) 을 진행하여 사전에 정의된 슬롯을 채워 넣음
- 토큰 단위의 슬롯에 대해서 개체명 인식 작업과 유사하게 BIO(Begin, Inside, Outside) 스키마를 사용하여 각 엔티티를 정의하고 이를 찾아내는 작업을 진행함
- 대화 상태 추적 (DST : Dialog State Tracking)
- 현재 들어온 발화와 지금까지 사용자와 시스템이 나눈 대화 히스토리 정보를 반영하여 대화 상태를 추적함
- 발화자 의도, 목표와 요청을 정확하게 추적 하는 것이 대화 상태 추적 모듈의 역할임
-> 자연어 생성: 발화정보로부터 자연어 문장 생성
-> 음성 합성: 자연어 문장의 음성 생성
- 종단 간 학습 (End-to-End Learning)
- 기존의 파이프라인 방식의 한계
- 도메인에 관련된 hand-crafted 지식 필요, 새로운 도메인으로의 확장이 어려움
- 종단간 모델이 파이프라인 방식의 대안이 될 수 있음
- 확장성이 좋음, 많은 양의 대화 데이터 셋이 필요하다는 단점이 존재
- 특정 도메인에 해당하는 시스템 액션 템플릿을 정의하여 적은 양의 학습 데이터로도 학습이 가능할 수 있게 모델이 제안
- 일상 대화 시스템 (Open Domain Dialogue, Chitchat)
- 검색 기반 방식 (Retrieval-based Methods)
- 이전 대화 내용 또는 외부 지식 풀에서의 검색을 통해, 응답에 적합한 지식 또는 발화를 검색함
- 기존 대화 응답 집합에서 가장 관련 있는 응답을 생성하므로 생성 기반 모델보다 정확도 측면에서는 좋음, but 존재 X => 잘못된 응답
- 생성 기반 방식 (Generative Methods)
- 초기의 생성 기반 방식의 모델은 RNN기반의 인코더와 디코더로 구성
- 기계 번역에서의 Sequence-to-Sequence(Seq2Seq)모델과 유사
- Seq2Seq의 단점을 보완하기 위해 발화 별 인코더의 은닉층을 다음 발화의 은닉층에 가중치를 전달해주는 방식으로 대화의 발화 계층을 두어 학습하는 모델 제안
- 검색-생성 혼합 방식 (Hybrid Methods) - 문서 요약
- 주요 방향
- 문서에서 추출할까? 아니면 새로 만들까? ⇒ Extractive vs Abstractive
- 어떻게 여러 개의 문서에서 단일 주제에 관한 공통 요약을 만들까? ⇒ Multi Documents Summarization
- 텍스트 길이가 지나치게 긴 문서는 어떻게 처리하지? ⇒ Long Documents Summarization
- 요약문 평가 ⇒ ROUGE
- 추출 요약(Extractive Summarization)
- 추출 요약은 입력 텍스트의 일부(단어, 문장 등)를 그대로 재사용
- 본문 내에서 전체를 대표하는 핵심 문장을 찾는 것이 관건임
- 추상적 요약(Abstractive Summarization)
- 원본 텍스트의 정보를 다른 표현으로 재구성함
- 의미적 표현, 추론, 자연어 생성 등 관련 문제가 상대적으로 어렵기 때문에 고난도 작업에 속함
- Multi documents summarization
- 복수개의 문서를 요약하는 작업
- 다양한 저자들의 서로 다른 관점의 글들을 요약하는 것으로 더 어려움
- 여러 문서 중 어떻게 하면 중요한 정보를 식별하고 중복 정보를 필터링하는 것에 초점
- Long documents summarization
- 길이가 매우 긴 문서를 요약하는 작업으로 다양한 접근 방식
- Divide-and-conquer: 통계적 방법으로 extractive summary를 만들어 중요한 문장만 추린 후 모델의 입력으로 사용하는 방법도 존재함
- Attention Modeling: 연산량을 줄이기 위해 기존 모든 단어 간 조합을 살펴보는 full attention 방식(quadratic) 대신 sparse attention(linear)을 도입 => 최대 8배까지 긴 문장을 요약
- Unsupervised Summarization
- 문장의 상대적 중요도를 측정하는 중요도 점수를 기반으로 주어진 문장에서 중요한 부분을 추출
- 중요도 점수를 기반으로 주어진 문장의 중요한 부분을 찾음
- 문서가 그래프로 표현되며, 문서 내 문장은 node로, 노드와 노드 간의 관계는 edge의 가중치로 표현
특이한 분야
- Hate Speech
- 정의: 인터넷 상에서 발생하는 혐오 발언 및 공격적 표현을 자동으로 탐지하고 분류하는 기술
⇒ 이를 위해 학습 데이터를 사용하여 hate/offensive speech와 그렇지 않은 언어를 분류하는 분류 모델을 학습시키고, 이를 새로운 텍스트에 적용
- Hate speech는 인종, 성적 지향, 종교, 출신 국가, 성별 등 인적 특성에 따라 사람들을 비하하거나 공격하는 언어를 말함
⇒ 이러한 언어는 사람들의 정서를 상하게 하고, 그 대상이 상처를 받을 수 있음
- Counter Speech Generation
- 정의: 혐오 및 허위정보가 내재, 외재된 대화 또는 문장들에 대해 모델이 신뢰성 있는 근거가 내포된 문장을 생성함으로써 적절하게 대응할 수 있도록 하는 Task
- 이를 위해 일반적으로 인간과 유사한 대화를 생성하고 허위 정보나 혐오적인 내용을 확인한 뒤 생성 기반의 모델이 이에 적극적인 방식으로 반박/대응하도록 함.
- 즉, 대화를 통해 부정확하며 편견이 존재하는 내용을 바로잡고 신뢰성 있는 정보를 제공함으로써 대화 상대를 설득, 교화시키고자함
- Sarcasm Detection
- 정의: 텍스트 또는 음성 데이터에서 풍자적 의미나 반어법적 말을 감지하고 인식하는 Task
- 일상 대화에서 인간은 종종 비꼬거나 반어법을 활용한 말을 사용하는 경우가 있음. 하지만 이러한 유형의 언어는 모델이 이해하기에 어려운 경우가 많음
- 따라서 Sarcasm detection은 인공지능 분야에서 매우 중요한 문제 중 하나로 인식되고 있음
- 활용분야
- Sarcasm detection 기술은 아래와 같이 다양한 분야에서 사용될 수 있음
- 소셜 미디어에서는 사용자가 남긴 댓글이 비꼬는 의미를 갖고 있는 경우, 해당 댓글에 대해 자동으로 경고를 표시하는 등의 용도로 사용될 수 있음
- 비즈니스 분야에서는 고객 응대 챗봇이 고객의 말에 대해 올바른 대답을 하기 위해서 비꼬는 말을 인식할 수 있는 능력이 요구됨 - Deception Detection
- Fake News Detection
- 정의: 인터넷 상에서 유포되는 정보 중에서, 사실과 다른 정보, 혹은 과장된 정보를 식별하고 분류하는 Task
- 가짜 뉴스는 SNS의 보급과 함께 증가하면서, 인터넷 상에서 퍼져나가는 정보 중에서 진실을 구분하는 것이 매우 어려워짐
- Fake News Detection은 기존의 분류 기술을 활용하여 구현됨. 이때, 모델은 다양한 특징을 활용하여 가짜 뉴스와 진실의 차이를 구분할 수 있음
- Fact Checking
- 정의: 미디어나 인터넷 상에서 유포되는 정보의 진실성을 확인하는 Task
- Fact Checking의 목표는 주어진 정보의 진실성을 판단하고, 진실과 거짓을 구분하는 것임
- 최근 SNS의 보급과 함께 가짜 뉴스, 허위 정보, 진실과 거리가 먼 정보가 증가하면서 이러한 작업의 중요성이 더욱 증가함 - Machine Translation
- Quality Estimation
- 정의: 기계 번역 (Machine Translation; MT)된 문장이 얼마나 잘 번역을 하고있는지의 품질을 예측하는 Task
- 즉, 번역된 문장이 얼마나 자연스럽고 정확한지를 측정하는 기술
- Automatic Post Editing
- 정의: 기계 번역의 출력물에서 번역 오류, 문법적 오류 등을 자동으로 수정하는 Task
- 기계 번역의 출력물에서 발생하는 오류나 불완전한 부분을 인식하고 자동으로 수정하여 번역 품질을 개선하기 위한 기술
- APE는 번역 시스템에서 발생하는 일반적인 오류를 수정함 문법, 단어 선택, 의미 전달, 일관성 등
- APE 시스템은 이러한 오류를 식별하고, 기계 번역의 출력물을 수정하는 방법을 결정함
- 문장 구조, 어휘, 문법 등을 분석하여 번역된 문장을 자동으로 수정하는 기술
- 이전 번역 결과를 고려하여 수정을 수행하는 기술 등
- Word-Level AutoCompletion
- 정의: 소스 문장, 번역 컨텍스트 및 사람이 입력한 문자 시퀀스가 주어지면 대상 단어를 예측하는 Task
⇒ WLAC은 CAT 시스템에서 번역 효율성을 높이는 데 중요한 역할
- 원본 문장(src), 주변 문맥(context)과 주어지는 context type을 기반으로 번역시 나올 단어를 예측
- Chat Translation
- 정의: 채팅, 일상대화 분야의 구어체에 대해 기계번역을 수행하는 Task
- 기계번역과 유사하지만 은어, 줄임말 등이 빈번하게 포함되는 채팅형식의 구어체에 집중함 - Dialogue
- Persona-grounded Dialogue
- 정의: 개별 사용자가 갖는 여러 개인적 특성을 고려해 personalized된 대화를 생성하는 Task
- 기존의 대화 모델들은 대화 내용이나 주제에 대한 정보만 고려하여 응답을 생성함
- Persona-grounded dialogue는 인간과 모델 간의 대화에서 인간의 개인적인 특징이나 성격 등을 반영한 대화를 의미함
- Persuasive Dialogue
- 정의: 상대방을 설득하기 위한 목적의 대화. 모델이 상대방을 설득하고 자신의 주장을 전달하기 위해 응답 발화를 생성하는 Task
- Persuasive dialogue는 다양한 분야에서 활용될 수 있음 ⇒ 예를 들어, 광고, 마케팅, 정치, 교육 등에서 상품, 서비스, 정책, 아이디어 등을 전달하고 상대방을 설득하기 위해 사용
- Persuasive dialogue는 대화 시스템이 더욱 높은 수준의 상호작용과 대화 효과를 제공하는 데 유용
- 이를 통해 대화 시스템은 상대방을 더욱 효과적으로 설득할 수 있으며, 전달하고자 하는 메시지가 더욱 잘 전달됨
- Dialogue Summarization
- 정의: 대화 기록이나 대화 데이터를 기반으로 중심 정보들을 재구성하여 요약하는 Task
- 대화의 효율성을 높이기 위해 필요한 기술로, 대화 기록이나 대화 데이터가 많은 경우에는 일반적으로 요약된 버전으로 제공하는 것이 효과적임
- 대화 요약은 다양한 분야에서 활용되고 있음
- Knowledge-grounded Dialogue
- 정의: 대화 시 외부정보가 필요한 경우, Pre-train model외에 외부 지식을 별도로 활용하여 자연스럽고 전문적인 정보를 제공할 수 있는 대화를 생성하는 Task
- Pre-trained model이 가지지 못하는 factual knowledge를 부여하여 대화의 지식 정확성을 향상하기 위해 필요함 - 기타
- Question Generation
- 정의: 주어진 지문으로 부터 도출될 수 있는 질문들을 생성하는 Task
- 문서에서 중요한 정보를 추출하거나 패턴을 파악하여 정보의 누락, 추가, 명확화 등의 관점에서 적절한 질문을 생성하는 것이 일반적임
- “질문을 하는 것” 은 언어학, 교육학 적으로도 매우 중요한 행위로 다른 여러 NLP 분야에서도 적극적으로 활용되는 추세
- Document-level Relation Extraction
- 정의: 문서 전체에서 개체(entity)에 대한 속성(attribute)과 관계(relation)를 예측하는 Task
- Relation Extraction은 지식 그래프(Knowledge Graph; KG)를 구축하는 핵심 구성 요소이며, structured search, sentiment analysis, question answering, summarization과 같은 자연어 처리 응용 프로그램에 매우 중요하게 작용함
- Document-level relation extraction은 일반적인 Sentence-level relation extraction과 달리, 문서 전체에서 관계를 파악하기 때문에 보다 넓은 범위의 정보를 다룰 수 있음.
- Instruction Tuning
- 정의: 사람이 원하는 방식의 대답을 이끌어내기 위한 instruction을 통해 대규모 언어 모델(LLM)을 미세 조정하는 데 사용되는 방법
- 언어 모델의 동작을 안내하고 보다 정확하고 상황에 적합하며 제어된 응답을 생성하는 것을 목표
- 명령어-응답 쌍으로 구성된 추가 학습 데이터를 통합. 학습 중에 모델에 대한 명시적인 지침 역할을 하여 모델이 응답을 생성하는 동안 특정 지침을 이해하고 따를 수 있도록 함
- LLM Evaluation
- 정의: Large Language Model의 유창성, 일관성, 관련성, 정확성 등 모델 성능의 다양한 측면을 평가해 동작에 대한 인사이트를 얻고 개선점을 파악하고자하는 분야
- LLM이 여럿 출현함에 따라 해당 모델의 성능을 다각적으로 분석, 측정하는 것이 매우 중요해짐
- 대규모 언어 모델은 방대한 양의 텍스트 데이터에서 학습하기 때문에 의도치 않게 학습 데이터에 존재하는 편향이 포함될 수 있음. 잠재적인 사회적 영향을 이해하고 모델 배포와 관련된 윤리적 문제를 해결하는 데 도움 => 언어 모델에 존재하는 편향을 식별하고 완화하는 데 도움
- 궁극적으로 보다 신뢰할 수 있고 편향되지 않으며 효과적인 언어 모델을 개발할 수 있도록 함
- Huggingface Open LLM
- 사용자가 다양한 작업에서 다양한 대규모 언어 모델의 성능을 평가하고 비교할 수 있도록 해주는 Huggingface Platform
- Common sense, QA, Open domain Knowledge 등에 관한 지식에 대한 포괄적인 평가로 구성 - 한국어 관련 Task
- 고전어 데이터셋 : Ancient Korean Neural Machine Translation
- 고전어 데이터셋 : 조선왕조실록/일성록 기반 한자 벤치마크 데이터 셋
- 고전어 데이터셋 : 미번역된 한자 고문헌을 번역한 데이터
- 케어콜 데이터셋 : Building a Role Specified Open-Domain Dialogue System Leveraging Large-Scale Language Models (NAACL 2022)
- 혐오 발언 탐지 데이터셋 : BEEP! Korean Corpus of Online News Comments for Toxic Speech Detection
- 혐오 발언 탐지 데이터셋 : APEACH: Attacking Pejorative Expressions with Analysis on Crowd-Generated Hate Speech Evaluation Datasets (EMNLP 2022 Findings)
- 혐오 발언 탐지 데이터셋 : Korean UnSmile Dataset
- 혐오 발언 탐지 데이터셋 : KOLD: Korean Offensive Language Dataset (EMNLP 2022)
- 쓰기 평가 데이터셋 : 딥러닝 기반 언어모델을 이용한 한국어 학습자 쓰기 평가의 자동 점수 구간 분류 -KoBERT와 KoGPT2를 중심으로-
- 문법 교정 데이터셋 : Towards standardizing Korean Grammatical Error Correction: Datasets and Annotation
문법 교정 데이터셋 : K-NCT: Korean Neural Grammatical Error Correction Gold-Standard Test Set Using Novel Error Type Classification Criteria
'Study > 자연언어처리 NLP' 카테고리의 다른 글
딥러닝 기반의 자연언어처리 (0) | 2025.01.13 |
---|---|
자연언어처리의 역사 (0) | 2025.01.13 |
자연언어처리 - 텍스트 전처리 (0) | 2025.01.12 |
자연언어처리 - 언어학 (1) | 2025.01.10 |
자연언어처리란? (1) | 2025.01.10 |