Backbone
- Visual Feature
- 컴퓨터 비전의 태스크(classification, detection, segmentation, …)를 해결할 때 필요한 이미지의 특성을 담고 있는 정보들을 지칭
- 이미지에서 중요한 Feature를 추출(extract)할 수 있도록 훈련
- 주어진 비전 태스크를 잘 수행할 수 있는 압축된 Visual Feature를 산출
- 여러 개의 Layer로 이루어져 있고, 이를 통해 다양한 Level의 Feature를 추출
- Layer: Input 이미지에서 Feature(points, edges, shapes, …)를 추출하기 위한 연산을 하는 층
모델의 구성
- Backbone + (Optional) Encoder + Decoder
- Decoder
- 모델의 쓰임새에 따라 다양한 비전 태스크가 존재
- 압축된 Feature를 목표하는 태스크의 출력 형태로 만드는 과정을 수행
- Backbone은 입력 이미지에서 유의미한 Feature를 추출한 뒤 압축하는 역할이므로, 태스크 종류가 다르더라도 동일한 Backbone을 사용
- Decoder의 경우에는 최종 결과를 출력해주는 역할이므로, 비전 태스크가 바뀐다면 올바른 형태로 결과를 산출할 수 있도록 디코더 구조를 변경
- Classification
- Fully Connected Layer (FC Layer): 한 layer가 다음 layer와 완전히 연결되어 있는 layer로, 이미지 분류 모델에서 Decoder의 역할로 사용
- Softmax: 입력 받은 값을 모두 [0,1] 사이로 정규화 시켜주는 함수를 말함. 이를 통해 Decoder의 출력물을 각 클래스에 해당할 확률로 나타낼 수 있게 됨
- Detection
- Segmentation
- Encoder
- 일부 모델들의 경우 Backbone 이후에 Encoder를 도입하여 Feature와 Image Patch들 사이의 관계를 학습
'Study > 머신러닝' 카테고리의 다른 글
Image Classification (0) | 2025.01.03 |
---|---|
CNN (0) | 2025.01.03 |
Computer Vision-고전 컴퓨터 비전 (0) | 2024.12.23 |
Computer Vision (0) | 2024.12.23 |
PyTorch Hydra (0) | 2024.12.17 |