LLM 6

LLM 기반 Prompt Engineering 연구

Prompt EngineeringPrompt Engineering - 요구하는 작업을 지시하기 위한 작업! 요약? 분류? 추출?- LLM 시대로 넘어오면서 Task 수행을 위한 Template, Task Example, Answer Engineering 등의 Hard Prompt를 구성하는 방법을 주로 칭함 Prompt Engineering의 종류LLM의 In-Context Learning (ICL) 능력을 활용하기 위함: Prompt EngineeringLLM Prompt의 구성 요소 - Task Instruction, Demonstrations (Examples), QueryLLM Prompting Example- 수학적 추론, 데이터 추론, 상식 추론 등, 수행하고자 하는 작업에 맞는 특성을 고려해..

Large Language Model

Large Language Model 개요LLM의 정의 - 기존 언어모델의 확장판 => 방대한 파라미터 수를 가진 언어모델을 의미 - Large Language Models 시대 = Foundation Models의 시대- 창발성: 단일 모델로 여러 Task를 처리- 새로운 인공지능 개발 방식 = 육수 하나만 잘 끓이면 되는 시대 Large Language Models 춘추전국시대LLM의 핵심 - Human Alignment (Human Feedback)LLM은 리셋 모먼트 LLM의 등장 배경 - Scaling Law - In-Context Learning - 특정 크기를 기점으로 급격한 상승 - Instruction Tuning은 언어모델의 성능 향상시킴 LLM의 재료 - Infra     - Hype..

Natural Language 언어모델

언어모델자연언어 (Natural Language) - 인간의 언어- 정보전달의 수단이자 인간 고유의 능력으로 인공언어에 대응되는 개념언어모델 (Language Model) = 지식 표현 체계- 언어를 이루는 구성 요소(글자, 형태소, 단어, 단어열(문장), 문단 등)에 확률값을 부여하여 이를 바탕으로 다음 구성 요소를 예측하거나 생성하는 모델 -  단어 시퀀스에 확률을 할당(assign) => 언어모델은 가장 자연스러운 단어 시퀀스를 찾거나 문맥 정보를 이해하는 모델 언어모델의 종류 및 특징언어모델의 역사 규칙기반 언어모델 - 언어의 문법적 규칙을 사전에 정의하고 이에 기반하여 자연어를 처리 - 초창기에 사용한 연구방법 - 어순이 정형화되어 있지 않은 경우 분석에 한계가 존재 - 규칙의 사전 지정은 큰 ..

자연언어처리의 역사

규칙기반 및 통계기반 자연언어처리규칙 기반 NLP- Rule에 맞게 처리하는 시스템 - Rule 생성을 위해서는 Task에 대한 전문 지식 필요- 데이터를 살펴보면, 누가봐도 전문가가 만들었어야 하는 시대    - 형태소 분석, 구문 분석, 의미 분석 등    - NLP에서의 Task 지식 == 언어학적 지식- 적은 양의 데이터로 일반화 가능- 결론 도출의 논리적 추론 가능- 학습에 필요한 데이터가 비교적 적게 필요- 이를 제작한 전문가의 실력을 넘어서기 매우 어려움- 해당 전문가의 오류를 동일하게 반복- 규칙 구축에 많은 시간과 비용 소요- Toy task에 주로 적용되었음통계기반 NLP- 대량의 텍스트 데이터로 통계를 내어 단어를 표현 - “모두 (군중, 여러분)”가 “무의식적”으로 생산한 대량의 데..

Data Augmentation using Large Language Models:Data Perspectives, Learning Paradigms and Challenges

Ding, B., Qin, C., Zhao, R., Luo, T., Li, X., Chen, G., Xia, W., Hu, J., Luu, A. T., & Joty, S. (2024). Data Augmentation using Large Language Models: Data Perspectives, Learning Paradigms and Challenges. arXiv:2403.02990v4.- upstage 멘토링 2주-1일차 제공 아티클데이터 중심 접근- 최근 인공지능(AI) 연구의 중요한 패러다임 중 하나는 "데이터 중심 접근"- 모델의 성능을 높이기 위해 데이터를 다양하고 고품질로 확보하는 것이 필수적이라는 점을 강조- AI 시스템이 학습할 수 있는 유효한 정보를 확보하는 것이 중요하며, 이..

Data-Centric AI 관점으로 재해석하는 자연언어처리 기반 History of AI

Upstage (2023). Data-Centric AI 관점으로 재해석하는 자연언어처리 기반 History of AI. Upstage.- upstage 멘토링 1주-1일차 제공 아티클- NLP의 발전 과정을 Data-Centric AI 관점에서 재해석하는 논문자연언어처리(NLP)란?- NLP는 컴퓨터가 인간의 언어를 이해하고 처리하는 기술 - 텍스트 및 음성 데이터를 분석하여 컴퓨터가 언어적 의미를 파악하고 활용할 수 있도록 하는 것이 목표 - 규칙 기반 접근이 주를 이루었으나, 이후 통계적, 기계 학습, 딥러닝 기반 모델로 발전하며 그 가능성이 확장모두를 위한 “언어모델의 역사”- 언어모델의 발전은 NLP의 중심에 있으며, 데이터와 알고리즘의 발전에 따라 그 구조와 성능이 크게 향상 - 초기의 단순 ..