Study/컴퓨터비전 CV 14

CV 모델 성능 높이기

데이터EDA (Exploratory Data Analysis)- EDA (탐색적 데이터 분석)는 데이터를 다양한 각도에서 살펴봄- 시각화 및 통계 분석을 통해 데이터 구조, 패턴, 이상치 등을 먼저 파악해보는 과정 - 이미지 및 object의 분포 파악- 이미지의 다양성 확인- 이상치 및 noise 종류 파악- 다양한 형태의 object가 등장하는지 - Occlusion이 많은 데이터인지- 각 이미지의 noise 정도가 대략 어느정도인지Augmentation - EDA를 기반으로 적절한 augmentation 기법 선정 및 학습 과정에 적용- 데이터 증가: 샘플 개수 및 다양성을 추가하여 overfitting을 방지하고 generalization 능력 향상 - Robustness 향상: 실제 세계에서의 ..

CV 트렌드

CV 주요 연구Generative Model & Stable Diffusion - 생성형 모델은 GAN에서부터 점차 발전하여, diffusion 방법의 생성형 모델이 우수한 성능을 보이고 있음 - Midjourney AI : Discord에서 사용가능한 AI 아트 생성기- DALL-E : OpenAI에서 개발하여 ChatGPT에서 사용 가능한 이미지 생성기Machine Unlearning - Right to be forgotten: EU에서 제정된 ‘잊혀질 권리'에 대한 규제 (General Data Protection Regulation;GDPR)    - 인터넷에서 고객 데이터를 지울 수 있어야 할 뿐 아니라 학습 데이터로도 사용되어서는 안됨   - Membership inference attack으..

Segmentation

Segmentation 이해를 위한 기본 개념들Semantic Segmentation - 이미지에서 각각의 픽셀마다 클래스 레이블을 예측 - 즉, 클래스 레이블만으로 이루어진 출력 이미지를 얻음Encoder-Decoder Architecture - Encoder는 이미지의 semantic을 이해하는 과정 - Encoder는 주로 convolution 연산으로 압축된 latent space를 가짐 - Semantic segmentation task를 수행하려면 압축된 latent space를 원래 이미지 수준으로 확장할 필요가 있음 - Transposed convolution의 등장Transposed Convolution - Decoding 과정에서 필요한 딥러닝 연산 - 해상도의 크기가 점점 작아지는 c..

Backbone

CNNConvolution Filter - Filter   - 이미지처리를 위해 사용되는 행렬     - 주로 edge detection, blurring 등을 위해 사용되었음     - Kernel, mask라고도 불림   - 같은 filter로 이미지 전체에 sliding window로 convolution 연산 수행- Convolution 연산   - Convolution이란 이미지와 filter간의 합성곱 연산을 의미   - Convolution된 결과를 feature map 또는 activation map이라고 함    - 특수한 목적으로 고안된 filter를 사용하면 원하는 activation map을 얻을 수 있음 - 학습 가능한 Convolutional Filte   - 고정된 filter..

Object Detection

2-Stage DetectorObject Detection = Localization + Classification - 두 가지의 task를 분리하여 2 stage로 따로 수행 - Stage 1: 이미지 내에서 object가 있다고 판단되는 위치 찾기 (Region proposal) - Stage 2: 각 위치에 있는 object의 종류 판단 (Classification) R-CNN- 2-stage detector의 최초 모델- Region proposals + CNN- Sliding Window      - 고정된 크기의 window를 이미지 내에서 sliding하면서 객체의 위치를 찾아내는 방법      - 계산 비용이 높고 속도가 매우 느림      - 고정된 크기의 window- Selective..

CV Metrics

Classification을 위한 평가 지표Confusion Matrix- TP(True Positive): 실제 positive인 것을 positive라고 예측 (정답)- FP(False Positive): 실제 negative인 것을 positive라고 예측 (오답)- FN(False Negative): 실제 positive인 것을 negative라고 예측 (오답)- TN(True Negative): 실제 negative인 것을 negative라고 예측 (정답)Accuracy (정확도)  - 전체 데이터에 대한 올바르게 예측된 데이터의 비율Precision (정밀도)- 모델이 positive로 예측한 데이터 중에서 실제 positive인 데이터의 비율 Recall (재현율) = Sensitivity ..

Semantic Segmentation

Semantic SegmentationSemantic segmentation- Pixel-wise로 각각의 Class를 예측하여 물체 Category 별로 분할- Category: 각 픽셀의 Label 예측 - Architecture: Backbone (Encoder) + DecoderObject Detection vs Semantic Segmentation사용 예시- 자율주행 - 의료 영상 진단Dataset - KITTI        - 차량 주행중 촬영된 자동차 및 사물 이미지 데이터        - Semantic Label이 있는 200개의 Train Set과 200개의 Test Set으로 구성- Cityscape       - 도시 거리 장면 이미지 데이터        - 50개의 도시의 다양..

Object Detection

Object DetectionObject Detection: 사물 각각의 Bounding Box (Bbox) 위치와 Category를 예측Bounding Box: {x0 , y0 , x1 , y1 } 예측, Category: 사물의 class label 예측Architecture: Backbone (CNN) + Decoder (Detection Head)Image Classification vs Object Detection - Image Classification: 이미지 내에 어떤 물체가 있는지 분류 - Object Detection: 이미지 내의 각 Bbox 마다 객체의 클래스 분류 및 Bbox의 위치 추론 Localization (Bbox Regression) - Localization: Boun..

Image Classification

Image ClassificationImage Classification: 컴퓨터 비전 분야에서 대중적인 taskArchitecture: Backbone (CNN) + Classification head (FC Layer)Logits & Softmax - Logits: 각 클래스에 대한 예측을 수치(실수값)로 나타내는 중간 단계 - Softmax 함수는 실수 전체의 범위를 가지는 logits을 지수 함수를 사용하여 클래스 간의 상대적 확률 (0 ~ 1 사이의 값) 계산 Data-driven 방식으로 큰 성공을 거둔 컴퓨터 비전 태스크 중 하나 Dataset - MNIST      - 0부터 9까지 10개의 클래스 이루어진 숫자 모음      - 28 x 28 grayscale 이미지      - 60k..

CNN

CNN (Convolutional Neural Network)Convolution Layer- 네트워크가 비전 태스크를 수행하는 데에 유용한 Feature들을 학습할 수 있도록 함- Filter(=Kernel): Input Image를 특정 크기의 Filter를 이용하여 탐색하면서 Convolution 연산을 시행하여 Filter 영역에 대한 특징을 추출 - Stride (S): Filter를 얼마만큼의 간격으로 움직이는 지를 나타냄 - Padding(P): Feature Map의 크기를 일정 수준으로 유지하기 위해서 임의의 값을 넣은 Pixel을 얼마나 추가했는지를 나타냄          - Zero Padding: 0으로 채운 Pixel을 주변에 채워 넣는 것Activation Function- 네트..