2025/02/03 8

[AI 부트캠프] AI 여정의 반쯤 : 과정 중간 회고

2024년 9월 23일, 저는 AI 부트캠프를 시작했습니다.총 146일의 과정 중 현재까지 87일을 진행했으며, 이 시점에서 지금까지의 배운 것들을 돌아보는 시간을 가지려 합니다. 부트캠프는 단순히 새로운 지식을 배우는 과정이 아니라, 제 자신을 성장시키는 중요한 기회였습니다.이 회고를 통해 그동안의 경험을 정리하고, 앞으로 나아갈 방향을 고민하며, AI 부트캠프에 관심이 있는 분들에게 도움이 될 수 있기를 바랍니다. 제 경험을 솔직하게 나누면서 이 과정을 어떻게 의미 있게 보냈는지 공유하려 합니다. 시작의 다짐: 내 목표와 기대 2024년 9월 23일, 저는 AI 부트캠프를 시작했습니다.부트캠프는 단순한 학습의 과정이 아닌, 제 커리어와 개인적인 성장을 위한 중요한 도전이었습니다. 석사 과정을 마친 후..

사전학습 기반 언어모델의 한계점 및 방향성

사전학습 기반 언어모델의 한계점일반화 능력의 한계- 라벨링된 데이터의 부족   - 기존 사전학습 모델은 사전학습 → 미세조정의 두 단계를 거침    - 이 과정에서 라벨링 데이터가 많이 필요하며, 부족할 경우 기대하는 성능을 얻을 수 없음    - 라벨링된 데이터를 만드는 과정은 많은 노동이 필요 - 미세조정 후 모델의 일반화 능력 상실   - 사전학습된 모델을 미세조정할 경우, 일반화 능력이 상실됨   - 사전학습 단계에서 가지고 있던 지식 대부분이 미세조정 과정에서 사라짐   - ex) 사전학습 BERT와 의료 진료 분석된 모델로 미세조정된 BERT에서      - 1. “서울에서 부산까지 KTX로 얼마나 걸리나요?”       - 2. “떡볶이는 매운맛과 달콤한맛 두 가지가 있어요.”      - ..

의미기반 언어 지식 표현 체계

분포 가설분포가설 (distributional hypothesis)- “단어가 나타나는 주변 맥락이 유사하면, 그 단어들의 뜻도 서로 비슷하다”는 것을 의미- 즉, 비슷한 의미를 가진 단어는 주변 단어 분포도 비슷함을 의미- “단어의 의미는 그 단어가 사용되는 맥락에 의해 결정된다”라는 아이디어를 기반으로 단어의 의미를 이해하는 방법론ex) Tesgüino와 wine이 등장하는 주변 문맥이 비슷하므로, 두 단어는 유사함One-Hot Vector - 단어의 해당하는 인덱스에 1을, 나머지에 0을 할당하여 이루어진 범주형 벡터 (Discrete vector) - 단어의 수가 많을 때 벡터의 차원이 매우 커져 계산 효율이 낮으며, 단어 벡터가 다른 단어간의 유사도를 반영하지 않음 - 즉, 분포 가설에 기반한 ..

문맥기반 언어지식 표현 체계 이론

초기의 사전학습 언어 모델사전학습 (Pretrain)과 미세조정 (Fine-tuning) - 사전학습의 목표    - unlabeled text corpora로 부터 유용한 language representation을 배우는 것    - 사전학습 모델은 사전에 언어를 잘 이해했기 때문에, downstream task에 대해 라벨링된 데이터를 추가로 학습하여 좋은 성능을 얻을 수 있음    - E.g. 수능 국어(특정 downstream task)를 공부할 때, 글을 모르는 사람은(단순히 데이터로만 학습) 수능 국어에 능숙해 지는 데에 오랜 시간이 걸리고 (학습을 비교적 잘 하지못함), 사전에 글을 배운 사람 (사전학습 모델)은 비교적 수능 국어를 더 잘 익힘 (학습을 비교적 잘함)- 사전학습의 동기   ..

언어모델 평가 방법

Perplexity(PPL)- 문장의 길이로 정규화된, 문장을 생성할 확률의 역수- 일반적인 자연언어 생성모델의 대표적인 평가지표- 낮을 수록 좋음- 문장이 완성될 때, 각 토큰은 확률적으로 선택 => Perplexity는 문장이 완성될 때까지 선택된 토큰들의 누적된 확률을 기반으로 계산한 값 - 당혹감, 혼란 등의 단어가 가진 의미 그대로 모델이 정답을 결정할 때 얼마나 헷갈렸는가를 나타내는 지표 => Perplexity가 낮을수록 모델이 덜 헷갈린 상태로 확신을 가지고 답을 냈다는 의미BLEU- 목표로 하는 문장과 모델이 생성한 문장이 일치하는 정도를 precision 관점에서 수치화=> BLEU는 단어가 Reference 중에 한 곳이라도 포함된다면 정답인 걸로 취급 - Precision: n-gr..

카운트 기반 언어모델

카운트 기반의 단어 표현국소 표현(Local Representation)- 해당 단어 그 자체만 보고, 특정 값을 맵핑하여 단어를 표현하는 방법|- one-hot 인코딩 방식분산 표현(Dense Representation)- 그 단어를 표현하고자 주변을 참고하여 단어를 표현하는 방법Bag of Words(BoW)Bag of Words - 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법 - 어휘의 빈도(개수)를 기반으로 통계적 언어 모델을 적용해서 나타낸 것 => 국소 표현에 해당 구성 방법 ① 문서 내 단어별로 고유의 정수 인덱스를 할당하여 단어 집합(Vocabulary) 생성 ② 단어별 인덱스에 단어의 출현 빈도를 저장한 BoW..

전통적인 언어 지식 표현 체계

정보이론Information Theory - 딥러닝 기반 학습을 통해 예측 모형을 만드는 것- 훈련 데이터를 바탕으로 새로운 데이터를 예측할 수 있는 확률 분포를 만드는 것 => 따라서 예측 분포와 실제 정답의 분포 간의 정보량 차이 계산이 필요정보이론 - 데이터나 시그널에 존재하는 정보의 양을 측정하는 이론 => 해당 확률분포의 특성을 알아내거나 확률분포 간 유사성을 정량화- 잘 일어나지 않는 사건은 자주 발생하는 사건보다 정보량이 많다는 것 1. 자주 발생하는 사건은 낮은 정보량 2. 덜 자주 발생하는 사건은 더 높은 정보량3. 독립사건은 추가적인 정보량을 가짐예) 동전을 던져 앞면이 두 번 나오는 사건에 대한 정보량 > 동전을 던져 앞면이 한번 나오는 정보량정보량의 수치화 - 정보량: 어떤 Even..

Natural Language 언어모델

언어모델자연언어 (Natural Language) - 인간의 언어- 정보전달의 수단이자 인간 고유의 능력으로 인공언어에 대응되는 개념언어모델 (Language Model) = 지식 표현 체계- 언어를 이루는 구성 요소(글자, 형태소, 단어, 단어열(문장), 문단 등)에 확률값을 부여하여 이를 바탕으로 다음 구성 요소를 예측하거나 생성하는 모델 -  단어 시퀀스에 확률을 할당(assign) => 언어모델은 가장 자연스러운 단어 시퀀스를 찾거나 문맥 정보를 이해하는 모델 언어모델의 종류 및 특징언어모델의 역사 규칙기반 언어모델 - 언어의 문법적 규칙을 사전에 정의하고 이에 기반하여 자연어를 처리 - 초창기에 사용한 연구방법 - 어순이 정형화되어 있지 않은 경우 분석에 한계가 존재 - 규칙의 사전 지정은 큰 ..