Study/머신러닝

컴퓨터 비전 모델 구조

김 도경 2024. 12. 23. 15:40
Backbone
  • Visual Feature
    - 컴퓨터 비전의 태스크(classification, detection, segmentation, …)를 해결할 때 필요한 이미지의 특성을 담고 있는 정보들을 지칭

    - 이미지에서 중요한 Feature를 추출(extract)할 수 있도록 훈련
    - 주어진 비전 태스크를 잘 수행할 수 있는 압축된 Visual Feature를 산출
    - 여러 개의 Layer로 이루어져 있고, 이를 통해 다양한 Level의 Feature를 추출
         - Layer: Input 이미지에서 Feature(points, edges, shapes, …)를 추출하기 위한 연산을 하는 층
모델의 구성

 

  • Backbone + (Optional) Encoder + Decoder

  • Decoder
    - 모델의 쓰임새에 따라 다양한 비전 태스크가 존재
    - 압축된 Feature를 목표하는 태스크의 출력 형태로 만드는 과정을 수행

    - Backbone은 입력 이미지에서 유의미한 Feature를 추출한 뒤 압축하는 역할이므로, 태스크 종류가 다르더라도 동일한 Backbone을 사용
    - Decoder의 경우에는 최종 결과를 출력해주는 역할이므로, 비전 태스크가 바뀐다면 올바른 형태로 결과를 산출할 수 있도록 디코더 구조를 변경

    - Classification
       - Fully Connected Layer (FC Layer): 한 layer가 다음 layer와 완전히 연결되어 있는 layer로, 이미지 분류 모델에서 Decoder의 역할로 사용
       - Softmax: 입력 받은 값을 모두 [0,1] 사이로 정규화 시켜주는 함수를 말함. 이를 통해 Decoder의 출력물을 각 클래스에 해당할 확률로 나타낼 수 있게 됨

    - Detection

    - Segmentation


  • Encoder
    - 일부 모델들의 경우 Backbone 이후에 Encoder를 도입하여 Feature와 Image Patch들 사이의 관계를 학습

 

 

 

'Study > 머신러닝' 카테고리의 다른 글

Image Classification  (0) 2025.01.03
CNN  (0) 2025.01.03
Computer Vision-고전 컴퓨터 비전  (0) 2024.12.23
Computer Vision  (0) 2024.12.23
PyTorch Hydra  (0) 2024.12.17