카테고리 없음

[Short Review] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

zzangsky 2026. 5. 9. 21:50

https://arxiv.org/abs/1506.02640

 

You Only Look Once: Unified, Real-Time Object Detection

We present YOLO, a new approach to object detection. Prior work on object detection repurposes classifiers to perform detection. Instead, we frame object detection as a regression problem to spatially separated bounding boxes and associated class probabili

arxiv.org

1. 배경 및 문제점

  • 존 Fast R-CNN은 detection 속도는 빨라졌지만, 여전히 Selective Search 같은 region proposal 알고리즘이 bottleneck이었다.
  • Selective Search는 CPU 기반 알고리즘으로 이미지당 약 2초 정도가 필요해 전체 detection 속도를 제한하였다.
  • 기존 object proposal 방법들은 detection network와 별개로 동작하여 convolution feature를 공유하지 못했다.
  • Multi-scale 처리를 위해 image pyramid나 filter pyramid를 사용하는 방식은 정확도는 높지만 계산량이 매우 크다는 문제가 있었다.
  • Detection network와 proposal network를 하나로 통합하고, convolution 연산을 공유하는 구조가 필요했다.

2. 아키텍처 특징

  • Faster R-CNN은 Region Proposal Network(RPN)와 Fast R-CNN detector를 하나의 unified network로 통합하였다.
  • RPN은 convolution feature map 위를 sliding window 방식으로 탐색하며 object proposal을 생성한다.
  • 각 위치마다 여러 개의 anchor box를 사용하여 다양한 scale과 aspect ratio의 객체를 동시에 예측하였다.
  • 기본적으로 3개의 scale과 3개의 aspect ratio를 사용하여 총 9개의 anchor를 생성하였다.
  • RPN은 각 anchor에 대해 object 여부(classification score), bounding box 좌표(regression)를 동시에 예측한다.
  • Proposal network와 detection network가 convolution layer를 공유하기 때문에 region proposal 계산 비용이 매우 작다.
  • 기존 image pyramid 대신 anchor 기반 multi-scale 방식을 사용하여 계산량을 크게 줄였다.
  • Alternating Training 방식을 사용하여 RPN과 Fast R-CNN을 번갈아 학습하였다.
  •  RoI Pooling을 사용해 proposal 영역을 fixed-length feature vector로 변환하였다.

3. 의의

  • Region proposal과 object detection을 하나의 CNN으로 통합
  • Region proposal 계산 속도를 획기적으로 개선
  • Convolution feature 공유로 매우 높은 효율성 달성
  • Selective Search 없이도 높은 detection accuracy 달성
  • Real-time에 가까운 object detection 가능
  • 이후 Faster R-CNN, Mask R-CNN, Feature Pyramid Network 등의 기반 구조가 됨
  • Two-stage detector의 대표적인 구조 제시

4. 한계

  • Two-stage 구조라 YOLO 계열보다 여전히 느림
  • Anchor box hyperparameter 설정 필요
  • 작은 객체 탐지 성능 한계 존재
  • Region proposal과 detection 단계를 모두 수행해야 해 구조 복잡
  • 학습 과정(alternating training)이 비교적 복잡함
  • Anchor box 기반의 Region Proposal Network(RPN)를 사용하여 region proposal과 object detection을 하나의 CNN으로 통합한 two-stage object detector
 
Anchor box 기반의 Region Proposal Network(RPN)를 사용하여 region proposal과 object detection을 하나의 CNN에서 수행하는 고속 two-stage object detection 구조