Upstage AI LAB 부트캠프 5기/성장 기록

NLP 경진대회, 성과보다 중요한 배움의 순간들

김 도경 2025. 2. 5. 16:50

NLP 경진대회가 끝난 후, 대회에서 얻은 경험을 되돌아보며 후기를 작성해봅니다.

경진대회를 마친 지금, 성적보다는 그 과정에서 배운 점들이 훨씬 더 중요한 가치가 있었다고 생각합니다.

경진대회는 저에게 많은 도전과 성장을 안겨주었고, 그로 인해 새로운 기술을 배우고 문제 해결 능력을 키울 수 있었던 소중한 시간이었습니다.

 

처음 시작할 때는 NLP에 대한 깊은 이해가 부족했지만, 대회가 진행될수록 점점 더 많은 것을 배우고, 그 과정에서 나 자신이 성장하고 있다는 느낌을 받을 수 있었습니다. 또한, 팀원들과 함께 협업하면서 서로의 지식을 공유하고, 문제를 해결하는 과정은 그 무엇보다 값진 경험이었습니다. 이번 NLP 경진대회에서 배운 점도전을 중심으로 후기를 남기고자 합니다.

 

 

Dialogue Summarization 경진대회
일상 대화에 대한 요약
데이터 EDA

이번 NLP 경진대회에서 EDA를 처음 진행하면서, 정말 많은 도전이 있었습니다.

 

특히, NLP 모델을 위한 데이터 분석을 처음 시도하다 보니, 어디서부터 시작해야 할지 막막했고, 방향을 잡는 것 자체가 굉장히 어려웠습니다. 처음엔 데이터를 어떻게 이해하고 분석해야 할지 막막했지만, 하나씩 공부하고 진행하면서 점차 그 흐름을 잡을 수 있었습니다.

 

분석을 시작하면서 가장 먼저 대화 길이 분석을 진행했습니다.

대화 길이는 모델을 훈련시키기 위한 중요한 특징이 될 수 있기 때문에, 이를 통해 대화의 분포와 길이에 대한 전반적인 통찰을 얻을 수 있었습니다.

그 후, 토큰 및 텍스트 통계를 확인하며 각 대화에서 얼마나 많은 단어들이 사용되었는지, 텍스트의 길이나 평균 단어 수 등을 분석했습니다. 이 과정에서 예상보다 많은 변수가 있음을 알게 되었고, 데이터가 얼마나 다양한 형태를 띠고 있는지 다시 한 번 느꼈습니다.

 

또한, 단어 및 문장 다양성 분석을 통해 데이터에서 사용된 단어들이 얼마나 다양한지를 살펴보았습니다.

이는 모델의 학습에 있어서 중요한 역할을 할 수 있는 요소로, 동일한 의미를 가진 단어들이 여러 번 등장할 경우 모델이 이를 잘 학습할 수 있도록 도와줍니다. 그러나, 이 부분에서 조금 더 깊이 있게 분석을 진행했으면 좋았겠다는 아쉬움이 남습니다.

단어의 빈도 분석이나 주제별 토픽 모델링 등을 추가적으로 진행했다면, 모델 성능 향상에 더 도움이 되었을 것 같다는 생각이 듭니다.

 

이번 EDA 과정을 통해, NLP 데이터의 특성을 처음으로 직접 다뤄보면서 많은 경험을 쌓았고, 무엇보다 문제 해결을 위한 분석 방향을 찾는 데 중요한 학습이었습니다.

다만, 시간을 조금 더 투자하여 더 많은 분석을 진행할 수 있었다면 데이터에 대한 이해를 더욱 깊게 할 수 있었을 것 같습니다.

앞으로 더 많은 프로젝트에서 EDA를 진행하면서 점차 더 나은 분석 방법을 찾아갈 계획입니다

 

 

데이터 증강을 위한 노력

이번 NLP 경진대회에서 데이터 증강에 많은 노력을 들였지만, 결과적으로 많은 시행착오를 겪었습니다.

증강을 통해 모델의 성능을 향상시키고자 했지만, 처음에는 여러 방법이 잘 맞지 않았습니다. 그러나 멘토링을 통해 병렬 처리에 대한 중요한 인사이트를 얻고, 결국 증강 작업에서 일부 성과를 이루게 되었습니다.

 

제가 시도한 증강 방법은 여러 가지였습니다.

첫 번째로, Synonym Replacement (동의어 치환) 기법을 사용하기 위해 NLPAug 라이브러리를 활용했습니다. 이 방법은 대화문에서 일부 단어를 유사한 의미의 단어로 교체하는 방식으로, 데이터의 변화를 주어 모델이 다양한 표현을 학습할 수 있도록 했습니다. 하지만 이 과정에서 몇 가지 단어는 적합한 동의어로 교체되지 않아 의도치 않게 의미가 왜곡되기도 했습니다.

 

다음으로는 Back-Translation (역번역) 기법을 시도했습니다. googletrans 라이브러리를 사용하여 텍스트를 한 언어에서 다른 언어로 번역한 후, 다시 원래 언어로 번역하는 방식이었습니다. 이 기법을 통해 텍스트의 표현을 다양화하고자 했습니다. 초기에 많은 실패가 있었지만, 멘토링을 통해 병렬 처리에 대한 인사이트를 얻고, 성능을 개선할 수 있었습니다. 이를 통해 대규모 데이터의 증강이 가능해졌고, 그 결과 성공적으로 대화문을 증강할 수 있었습니다.

 

그 외에도 여러 증강 방법을 시도했습니다. Text Paraphrasing (문장 부연 및 변형), Sentence Shuffling (문장 순서 섞기), Text Noise Injection (텍스트에 잡음 추가), 랜덤 삽입 (Random Insertion), 랜덤 삭제 (Random Deletion) 등의 다양한 방법을 시도했으나, 그 중 일부는 예상보다 효과적이지 않았습니다. 특히, TextAttack를 활용하여 모델의 로버스트니스 검증 및 증강을 시도했을 때, 초기에는 모델 성능에 큰 변화가 없었고, 이 부분은 이후 더 깊은 분석과 수정이 필요했습니다.

 

결과적으로, 증강 작업에서 얻은 성과는 사진에 있는 것처럼 몇 가지가 성공적이었고, 그로 인해 모델의 학습에 도움이 되었습니다. 역번역 증강을 통한 병렬 처리 인사이트 덕분에 증강을 진행하며 얻은 데이터가 모델 성능 향상에 기여한 것을 확인할 수 있었습니다. 여러 시도 끝에 얻은 이 성과들은 앞으로 진행될 다른 NLP 프로젝트나 경진대회에서 중요한 자산이 될 것입니다.

 

이번 경험을 통해 데이터 증강의 중요성과 그에 대한 다양한 접근 방법을 이해할 수 있었고, 향후 더 나은 성과를 내기 위해 꾸준히 실험하고 학습해야겠다는 다짐을 하게 되었습니다.

 

ppt 제작과 발표

 

이번 NLP 경진대회에서 PPT 제작과 발표를 맡게 되었습니다.

발표를 진행하면서, 팀원들이 각자 맡은 부분을 하나로 모아 효과적으로 발표할 수 있도록 노력했습니다. 팀원들이 각자 맡은 부분에서 많은 작업을 했지만, 그들의 결과물을 하나의 흐름으로 통합하는 일이 생각보다 쉽지 않았습니다. 하지만 팀원들과 함께 의견을 조율하며 PPT를 제작하고, 각자의 작업을 잘 표현할 수 있는 방식으로 정리하는 과정에서 많은 것을 배울 수 있었습니다.

 

PPT는 단순히 내용을 전달하는 도구가 아니라, 팀의 성과를 시청자에게 효과적으로 전달할 수 있는 중요한 수단이라는 걸 다시 한 번 느꼈습니다. PPT 초안을 만들고 팀원들에게 수정과 보완을 요청하는 방식으로 진행하였고, 이를 통해 발표의 흐름을 자연스럽게 만들 수 있었습니다. 발표 당일에는 팀원들이 잘 준비해준 덕분에 발표가 원활하게 진행되었습니다. 특히, 발표를 진행하면서 다른 팀원들이 모델에 대해 어떻게 설명할지 고민을 함께하며, 실시간으로 의견을 조정하는 과정에서 협업의 중요성을 다시 한 번 실감할 수 있었습니다.

경진대회를 진행하면서 스스로 생각한 점

발표를 마친 후, 모델 부분에 대해 조금 더 신경 쓸 걸이라는 아쉬움이 남았습니다.

발표 준비 과정에서 모델의 세부적인 부분에 대한 설명이 부족했던 점이 아쉽게 느껴졌습니다. 모델은 중요한 역할을 했음에도 불구하고, 그에 대한 충분한 설명과 깊이를 다루지 못한 점이 발표 후 반성의 한 부분이었습니다. 앞으로는 발표 시 기술적인 부분을 더욱 철저히 준비하고, 팀원들과 더 심도 깊은 논의를 통해 발표에 반영할 수 있도록 해야겠다는 생각을 하게 되었습니다.

 

그럼에도 불구하고, 데이터 부분에 대해서는 매우 긍정적으로 평가하고 있습니다. 데이터가 잘 준비되고, 그에 맞는 분석을 통해 모델을 개발했기 때문에 대회 중 큰 어려움 없이 진행할 수 있었습니다. 데이터에 대한 정확한 이해가 모델 학습과 경진대회의 전반적인 진행에 중요한 도움이 되었고, 이를 통해 보다 유연하게 대회에 대응할 수 있었습니다.

 

이번 발표와 PPT 제작 과정은 효율적인 협업과 문제 해결 능력을 키울 수 있는 기회였습니다. 기술적인 부분에서는 아쉬움이 있었지만, 발표 경험 자체는 매우 값졌습니다. 향후 발표 준비에서는 모델에 대한 깊은 이해를 바탕으로 더 나은 발표를 준비하고, 데이터 분석과 모델링에 대한 학습을 계속해서 이어나가겠습니다. 이 과정을 통해 얻은 경험과 지식을 다음 프로젝트에 잘 적용할 수 있도록 노력할 것입니다.